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IV. TP18 

中 国 版 本 图 书馆 CIP 数 据 核 字 (2017) 第 076614 号 

内 容 提 要 

TensorFlow 是 谷歌 公司 开发 的 深度 学 习 框 架 ， 也 是 目前 深度 学 习 的 主流 框架 之 一 。 本 书 从 深度 学 习 
的 基础 讲 起 ， 深 入 TensorFlow 框架 原理 、 模 型 构建 、 源 代码 分 析 和 网 络 实现 等 各 个 方面 。 全 书 分 为 基础 
篇 、 实 战 篇 和 提高 篇 三 部 分 。 基 础 篇 讲解 人 工 智能 的 入 门 知识 ， 深 度 学 习 的 方法 ，TensorFlow 的 基础 原 
理 、 系 统 架 构 、 设 计 理 念 、 编 程 模 型 、 常 用 API、 批 标准 化 、 模 型 的 存储 与 加 载 、 队 列 与 线程 ， 实 现 一 个 
自 定义 操作 ， 并 进行 TensorFlow 源 代码 解析 ， 介 绍 卷 积 神经 网 络 (CNN) 和 循环 神经 网 络 (RNN) 的 演 
化 发 展 及 其 TensorFlow 实现 、TensorFlow 的 高 级 框架 等 知识 ;实战 篇 讲解 如 何 用 TensorFlow 写 一 个 神经 
网 络 程序 并 介绍 TensorFlow 实现 各 种 网 络 CCNN、RNN 和 自 编码 网 络 等 )， 并 对 MINIST 数据 集 进行 训 
练 ， 讲 解 TensorFlow 在 人 脸 识 别 、 自 然 语言 处 理 、 图 像 和 语音 的 结合 、 生 成 式 对 抗 网 络 等 方面 的 应 用 ; 
是 高 篇 讲解 TensorFlow 的 分 布 式 原理 、 架 构 、 模 式 、API, 还 会 介绍 TensorFlow XLA, TensorFlow Debugger. 














TensorFlow 和 Kubernetes 结合 、 


TensorFlow Fold 和 TensorFlow 计 











TensorFlowOnSpark、TensorFlow 移动 端 应 
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算 加 速 等 











经 验 介绍 项 目 





结合 作者 的 项 目 








本 书 深入 浅 出 ， 理 论 联系 实际 ， 实 战 案例 新 颖 ， 基 
读者 阅读 。 


fes; 








的 新 特性 ， 非 常 适 合 对 深度 学 习 和 TensorFlow 感 兴趣 的 


























他 特性 。 最 后 ， 附 录 中 列 出 
管理 的 一 些 建 议 。 








]. UL TensorFlow Serving. 
可 供 参 考 的 公开 数据 集 ， 























F 最 新 的 TensorFlow 1.1 Jk, dz; TensorFlow 
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恭喜 你 选择 TensorFlow， 它 是 最 流行 的 深度 学 习 框 架 ， 没 有 之 一 。 
我 相信 这 是 一 本 能 让 你 坚持 看 到 最 后 一 页 的 技术 书 。 


iiv dae E 文 森 特 。 楚 高 先生 ， 他 毕生 用 画作 所 代表 的 
对 生活 的 美好 追求 ， 是 我 在 无 数 个 黑夜 中 的 灵魂 伴 但 。 





成 了 被 工业 界 最 广泛 应 用 的 关键 技术 。 对 于 每 一 个 程序 员 ， 
握 深度 学 习 。 对 于 初学 者 来 说 ， 从 TensorFlow 入 手 是 很 好 
文 持 ， 并 且 有 广泛 的 社区 。 
本 书 的 作者 李 喜 斑 曾 是 百度 的 一 名 优秀 工程 师 ， 一 位 非常 草 
力 于 人 工 智能 的 研究 ， 对 
图 像 处 理 、 情 感 分 析 、 文 本 挖掘 等 项 目 。 更 为 难得 的 是 ， 她 在 繁忙 的 工作 之 外 积极 创建 
上 区 ， 同 时 也 活跃 于 国内 各 大 技术 社 
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TensorFlow 及 深度 学 习 交 流 衬 





今天 深度 学 习 已 经 渗透 到 互联 网 技术 和 产品 的 方方面面 ， 它 从 学 术 界 的 一 个 研究 课题 变 




































































多 个 不 眠 之 夜 编写 而 成 。 
鉴于 这 样 的 背景 , 我 认为 这 本 书 非 常 适 合 希 望 入 门 深度 学 习 的 程序 员 。 他 们 可 以 将 本 书 作 
为 一 本 入 门 和 实践 的 书籍 阅读 。 读 者 可 以 从 本 书 中 了 解 基本 的 深度 学 习 原 理 、 典 型 的 模型 、 大 
量 的 TensorFlow 源 代码 以 及 成 功 的 应 用 范例 。 从 本 书 晶 
在 工作 实践 中 加 以 运用 ， 领 略 深度 学 习 的 美妙 。 
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我 认为 都 应 该 或 多 或 少 了 解 和 党 
的 起 点 。TensorFlow 有 谷歌 的 强大 














奋 的 女生 。 她 在 工作 之 余 致 





深度 学 习 框 架 的 架构 、 应 用 及 编程 进行 深入 钻研 ， 并 利用 深度 学 习 











区 。 这 本 书 更 是 她 投入 了 很 
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地 平 线 机 器 人 创始 人 ， 前 百度 深度 学 习 实验 室 主 任 


发， 读者 可 以 循序 渐进 ， 逐 步 深入 ， 
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新 的 1.1 



































月 TensorFlow 的 首 
加 利 福 尼 亚 州 举行 。 在 会 上 ， 和 谷歌 公司 宣布 
.0 版 本 来 介绍 TensorFlow 的 技术 解析 和 实战 。 
人 工 智能 大 潮 来 了 。2016 Æ, AlphaGo 击败 转 
夜 之 间 遍 地 开花 。 在 科技 潮流 的 大 环境 中 ， 现 在 硅谷 的 
(思考 者 ) 又 懂 编 程 ( 执 行者) 的 工程 师 。 



























































思考 者 的 


























棋 大 师 李 世 石 后 ， 人 工 智 能 的 应 ) 


届 开 发 者 峰会 (2017 TensorFlow Dev Summit) 在 美国 的 
E 式 发 布 TensorFlow 1.0 版 本 。 本 书 就 是 基于 最 




















j Ti 佛 一 



































人 单位 越 来 越 倾向 于 雇用 
日 常 工 作 是 阅读 文献 以 求 产生 思路 ， 而 执 

















既 懂 理论 

















ML 























行者 则 是 编写 代码 来 实现 应 
执行 者 相 结合 的 最 快 途 径 。 
众 所 周 


， 深 度 学 习 是 




















j。 但 是 要 成 为 一 名 真正 的 工程 师 ， 











知 ， 人 工 智能 是 高 级 计算 智能 最 宽泛 的 概念 ， 机 器 学 习 是 研究 人 工 智 








党 习 机 器 学 思考 者 和 


习 是 将 

















H 
架 有 很 多 ， 而 TensorFlow 将 
RIER, RAT 






































的 目标 领域 的 “轮子 ” 而 且 TensorFlow 是 基于 Python 语言 
引 了 全 世界 的 工程 师 。 























器 学 习 的 一 个 子 集 ， 是 目前 研究 领域 盾 有 成 效 的 学 习 方法 。 深 度 


能 的 一 个 工 
度 学 


习 的 框 




















经 网 络 、 








经 网 络 的 各 个 算法 函数 组 成 一 个 工具 箱 ，i 


算法 这 些 平时 停留 在 理 





it) 





ERA. HARE — 1E 



































上 广大 工程 师 可 以 专心 建造 自己 
的 ， 极 易 上 手 ， 这 些 优 势 迅速 吸 




















我 曾经 也 是 一 名 前 后 端 











Tf 发 工程 ， 











并 且 会 大 大 地 解放 劳动 力 。 
与 传统 工程 ) 


























J, 更 专注 
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A ERI 
































方向 ， 而 潜心 研究 深度 学 习 和 


TensorFlow 后 ， 我 被 TensorFlow 深 深 地 迷 住 了 。 我 发 现 它 对 各 行 各 业 将 会 有 很 深远 的 影响 ， 











i 的 主要 工作 一 一 实现 产品 需求 或 者 设计 高 可 月 
象 人 类 是 怎样 理解 和 看 待 问 题 的， 并 把 这 种 方式 教 给 机 器 。 例如， 在 AlphaGo 的 研 








日 性 架构 不 同 ， 深 度 学 习 让 人 





究 中 ， 人 们 需要 先 抽象 出 人 类 思考 围棋 的 方式 ， 然 后 将 这 种 方式 抽象 成 算法 ， 并 且 配 合 人 类 

















大 脑 构造 中 神 
码 ， 而 是 深度 学 习 ! 


结合 ， 








经 网 络 的 





























输 来 实现 这 些 算法 。 这 时 ， 工 程 
将 神经 网 络 的 “ 黑 全 ”和 模型 效果 非 党 
在 次 次 实验 中 尽量 找 出 规律 。 记 得 美国 前 总 统 肯尼迪 在 宣布 















































j 不 会 再 
好 却 缺 乏 “ 可 解释 性 ”的 特性 相 


号 实现 业务 需求 的 逻辑 代 


















































登 月 计划 时 曾 说 :“ 我 们 选 


>> 前 言 











择 去 月 球 ， 不 是 因为 它 简单 ， 而 是 因为 它 困 难 。” 今 天 ， 我 相信 ， 所 有 致力 于 人 工 智能 方向 的 
工程 师 之 所 以 自豪 地 去 研究 ， 也 不 是 因为 它 简单 ， 而 是 因为 它 困 难 。 我 们 研究 它 ， 是 因为 立 
足 于 现在 这 个 点 往 前 看 ， 我 们 看 不 到 已 经 建 好 的 高 楼 大 厦 ， 看 到 的 是 一 片 等 待 我 们 去 发 掘 的 
空旷 的 大 地 ， 而 这 个 发 掘 过 程 需要 的 是 十 足 的 远见 、 决 心 、 勇 气 和 信心 。 
我 在 学 习 的 过 程 中 ， 由 于 深度 学 习 的 资料 英文 的 居多 ， 在 理解 上 走 了 不 少 弯路 。 我 把 学 
到 的 知识 和 原理 用 心 整 理 并 用 文字 表述 出 来 ， 写 成 这 本 书 ， 和 希望 能 帮助 没有 接触 过 深度 学 习 
的 广大 程序 员 迅 速 上 手 ， 而 不 再 被 英文 阅读 理解 挡 在 门 外 。 说 实话 ，TensorFlow 的 文档 以 及 
API 接口 是 比较 抽象 的 ， 再 加 上 有 一 些 从 工程 方向 转 入 深度 学 习 的 人 以 前 没有 过 深度 学 习 的 
经 验 , 所 以 如 果 带 着 工程 类 程序 研发 的 思维 去 学 习 , 甚至 是 实现 业务 逻辑 需求 的 思维 去 学 习 ， 
效果 会 很 差 。 我 希望 这 本 书 能 为 读者 呈现 一 个 通俗 易 懂 、 形 象 生 动 的 TensorFlow， 使 读者 迅 
速 走 入 深度 学 习 的 世界 。 
在 本 书 的 写作 过 程 中 ， 为 了 能 充分 挤 出 时 间 ， 深 夜 当 我 困倦 时 ， 我 常常 让 自己 以 最 不 舒 
服 的 方式 入 睡 ， 希 望 能 尽量 少 睡 ， 以 此 增加 仔细 钻研 的 时 间 。 有 时 我 还 会 打开 电视 ， 将 音量 
j 





















































































































































































































































































































































设置 为 静音 ， 感 受 房间 中 电视 背景 光 内 烁 的 动感 ， 以 此 提醒 自己 时 间 的 流动 。 刚 开始 我 会 坐 
在 工作 台 前 写作 ， 累 了 又 会 抱 着 笔记 本 坐 在 床上 继续 写作 ,有 时 会 写 独 写 着 不 知 不 觉 地 睡 着 ， 
凌晨 三 四 点 钟 又 醒 来 ， 感 受 黑夜 里 的 那 片 安宁 ， 心 情 顿 时 平静 ， 再 次 投入 到 钻研 中 。 每 每 有 
灵感 ， 都 非常 激动 ， 每 每 再 次 深入 一 个 概念 ， 增 删 易 稿 ， 把 原理 逼近 真相 地 讲 透 ， 都 让 我 非 
常 有 成 就 感 。 


面向 的 读者 


我 素来 不 爱 探究 数学 公式 的 推导 原理 ， 对 符号 也 很 茫然 ， 只 是 在 必须 要 用 时 才 对 这 些 公 
式 进行 详细 的 推导 ， 但 是 我 却 对 这 些 原理 在 应 用 层面 如 何 使 用 出 奇 地 感 兴趣 。 本 书 的 目标 
就 是 带 读 者 进入 造 “ 应 用 轮子 ”的 大 门 。 我 会 以 最 少 的 数学 公式 讲 清楚 如 何 用 TensorFlow 
实现 CNN、RNN， 如 何在 实战 中 使 用 TensorFlow 进行 图 片 分 类 、 人 脸 识 别 和 自然 语言 处 理 
等 ， 以 及 如 何 将 想 训 练 的 数据 、 想 实现 的 应 用 杀手 做 出 来 。 

同时 ，Python 语言 是 一 门 相当 高 级 的 语言 ， 有 “可 执行 的 伪 代 码 ” 的 美誉 ， 可 以 用 极 少 
的 代码 行 去 完成 一 个 复杂 的 功能 ， 同 时 Python 还 有 极为 丰富 的 第 三 方 库 ， 让 全 世界 很 多 工程 
师 的 开发 工作 变 得 异常 简单 。TensorFlow 是 用 Python 语言 实现 的 框架 ,对 很 多 学 生来 说 非常 
容易 上 手 ， 当 然 ， 如 果 是 有 开发 经 验 的 工程 师 ， 就 更 容易 学 会 。 如 果 说 设计 神经 网 络 模 型 像 
是 新 一 栋 大 楼 ， 那 么 TensorFlow 强大 的 API 用 起 来 会 让 人 感觉 就 像 搭 积木 一 样 容易 。 因 此 ， 
懂 点 儿 Python， 即 便 不 怎么 懂 数 学 和 算法 原理 也 没关系 ， 尽 管 跟着 我 一 起 学 便 是 。 

在 翻译 学 上 有 一 个 概念 叫 作 “平行 语料库 ” 这 个 概念 来 自制 作 于 公元 前 196 年 的 古 埃 及 
罗 塞 塔 石碑 ， 石 秩 上 用 希腊 文字 、 古 埃及 文字 和 当时 的 通俗 体 文字 刻 了 同样 的 内 容 。 在 本 书 
进行 茶 个 概念 的 讲解 时 ， 虽 然 是 用 Python 代码 作 示 范 ， 但 TensorFlow 前 端 开发 同时 也 支持 















































































































































































































































































































































































































































































































































































































































多 种 上 层 语 言 ， 本 书 讲解 过 程 中 也 会 兼顾 到 用 CH, Java, Go 语言 做 开发 的 读者 。 
我 希望 ， 本 书 成 为 不 同 领 域 的 读者 进入 人 工 智能 领域 的 “ 热 脚 石 ”%” 也 希望 所 有 的 读者 在 
人 生路 上 能 利用 TensorFlow 这 个 工具 大 放 异 彩 。 

我 有 很 重 的 强迫 症 ， 因 此 ， 在 编写 本 书 的 过 程 中 ,阅读 了 国内 外 很 多 与 TensorFlow 相关 
的 资料 ， 对 本 书 的 目录 结构 和 框架 经 过 很 多 次 反复 琢磨 和 调整 ， 在 写 完 之 后 ， 我 又 从 头 到 尾 
地 读 过 好 几 近 ， 并 且 和 了 解 TensorFlow 不 同方 面 的 人 反复 交流 ， 根 据 建议 又 反复 修改 。 这 一 
切 就 是 希望 它 能 通俗 易 懂 ， 把 读者 快速 领 入 深度 学 习 的 大 门 。 

这 扇 门 的 背后 是 异彩 纷呈 的 ， 身 怀 这 门 技艺 的 人 是 应 该 非常 自豪 的 ， 但 这 扇 门 的 背后 也 
是 非常 辛苦 的 ， 有 时 数据 需要 自己 去 想 办 法 解决 ， 还 需要 每 天 看 论文 ， 知 晓 最 新 科研 成 果 ， 
给 自己 以 启发 ， 反 复 地 做 实验 ， 研 究 算法 和 模型 ， 寻 求 提 升 和 解决 方法 ， 经 常会 遇 到 在 很 长 
一 段 时 间 没 有 思路 的 情况 。 但 是 ， 只 要 做 的 东西 是 开创 的 ， 令 人 称赞 的 ， 就 会 开心 地 享受 这 
个 过 程 。 

我 专 为 本 书 读者 建立 了 一 个 QQ 交流 群 (320420130)， 希 望 在 群 里 与 大 家 深入 讨论 和 交 
流 学 习 过 程 中 遇 到 的 问题 ， 也 希望 与 大 家 分 享 最 新 的 研究 成 果 。 
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(D JeffDean 的 邮件 原文 是 :“It’s great that you've written a book about TensorFlow. I hope you enjoyed the experience 
in learning about TensorFlow and how to accomplish various tasks. I'm glad that you're making your book available 
for the Chinese speaking community." . 
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第 一 篇 m 
基础 篇 


著名 历史 学 家 斯 塔 夫 里 阿 诺 斯 在 《全 球 通史 》 中 ， 曾 以 15 世纪 的 航海 在 
“物理 上 ”连通 “各 大 洲 ” 作 为 标志 将 人 类 历史 划分 为 两 个 阶段 。 在 我 正在 写 
作 的 《互联 网 通史 》 中 ， 我 把 互联 网 这 个 “信息 上 ”连通 “人 类 个 体 ” 的 物件 
作为 划分 人 类 历史 的 标志 。 而 随 着 人 工 智能 最 近 的 崛起 ,我们 又 该 思考 重新 划 
分 了 ， 因 为 人 工 智 能 将 会 在 “信息 上 ”连通 “各 个 物体 ”。 到 那 时 各 个 物体 都 
有 “智能 ”如 智能 汽车 、 智 能 电视 、 扫 地 机 器 人 、 智 能 音响 等 智能 家 居 ， 想 
象 极度 的 智能 下 ， 屋 子 里 的 电器 和 家 居 都 可 能 和 我 们 有 简单 的 交互 。 

深度 学 习 领 域 之 所 以 异军突起 , 是 因为 传统 的 研发 思维 , 如 架构 、 组 件 化 、 
大 规模 并 发 、 存 储 与 计算 等 ,已 经 是 技术 红海 了 ， 而 每 位 工程 师 都 应 该 学 习 机 
RFJ, 是 因为 它 带 给 工程 师 全 新 的 开发 思维 , 工程 师 可 以 用 自己 的 代码 让 机 
器 更 加 “聪明 ”。 
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人 工 知 能 概述 


































































































































































































有 人 说 ， 人 工 智能 在 世界 范围 的 流行 ， 是 因为 那 盘 围棋 。2016 年 3 月 ， 谷 歌 公司 的 AlphaGo 
向 韩国 棋院 围棋 九段 大 师 李 世 石 发 起 挑战 ， 而 这 棋局 走 法 的 可 能 性 有 361! 种 ， 最终 AlphaGo 战 
胜 了 这 场 “ 棋 局 数 比 可 见 宇宙 中 的 原子 数 还 多 ”的 智力 游戏 。2015 年 11 H 9 日 (在 距 这 场 比 
赛 前 4 个 月 )， 人 谷歌 公司 开源 了 它 的 第 二 代 深 度 学 习 系 统 TensorFlow， 也 就 是 AlphaGo 的 基础 
程序 。 
Lal 
1.1 什么 是 人 工 智 能 
什么 是 人 工 智能 (artificial intelligence, AD ? 要 了 解 这 个 问题 我们 先 来 看 看 人 工 智能 的 











几 个 应 用 。 











1. 微软 小 冰 








相信 很 多 朋友 手书 
院 的 一 球 人 工 知 能 伴 人 
时 逻辑 上 表达 却 有 点 儿 对 不 上 上 下 文 ， 所 以 你 觉得 
而 又 一 眼看 穿 它 是 个 机 器 人 。 这 利 
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灵 测 试 ”。 
图 
能 的 方法 。 图 
脑 和 人 类 对 他 提 
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灵 测 试 是 计算 机 科学 之 父 英国 人 艾 伦 ， 图 
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的 各 种 问题 来 判断 对 方 是 人 类 还 是 














B 提出 问题 ， 


的 概率 就 可 以 

















C 来 判断 对 方 是 人 类 还 是 电脑 。 通 过 一 系列 这 样 的 测 
则 出 电脑 的 智能 程度 ， 电 脑 越 被 误 判 成 人 ， 说 明智 能 程度 就 越 
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度 百 科 “ 图 灵 测 试 ”。 
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虽 虚 拟 机 器 人 ， 跟 它 聊天 时 你 会 发 现 ， 小 冰 有 时 回答 得 非常 切中 你 
它 时 而 回答 得 不 错 像 人 ， 时 
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和 “模仿 游戏 ” 远 处 的 人 在 一 段 规定 的 时 间 内 ， 根 





据 两 个 实体 一 一 电 
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图 1-1 











这 种 情感 对 话 能 力 就 是 人 工 智 能 的 一 个 方向 。 而 现在 微软 小 冰 更 是 可 以 通过 文本 、 图 像 、 
视频 和 语音 与 人 类 展开 交流 ， 逐 渐 具 备 能 看 、 能 听 和 能 说 的 各 种 人 工 智能 感官 ， 并 且 能 够 和 人 
类 进行 双向 同步 交互 。 




















2. 人 脸 识 别 




















现在 许多 电脑 开机 密码 、 文 付 宝 的 刷 脸 文 付 、 客 流 的 闸 机 通行 都 有 采用 人 脸 识别 技术 。 目 
前 市 面 上 也 有 许多 人 脸 识 别 考 勒 机 。 很 多 公司 已 经 采用 了 人 脸 闸 机 打卡 签到 技术 ， 当 有 人 刷 脸 
打卡 签到 时 ， 识 别 出 这 个 人 的 面部 特征 ， 考 勤 机 会 将 其 与 公司 的 员工 信息 进行 比 对 ， 完 成 身份 
识别 ， 确 认 后 ， 便 可 开 闸 放行 。 

更 进一步 讲 ， 人 脸 识别 中 还 可 以 识别 出 人 物 的 年 龄 、 性 别 、 是 否 佩戴 眼镜 、 是 否 有 笑容 、 
情绪 欢乐 或 起 伤 ， 以 及 眼睛 、 鼻 子 、 嘴 等 关键 部 位 ， 这 就 是 人 脸 关 键 点 检测 。 图 1-2 就 是 人 脸 
关键 点 检测 的 一 个 示例 。 













































































图 1-2 





国内 有 一 些 公司 在 人 脸 识 别 上 已 经 达到 了 先进 水 平 ， 如 云 从 科技 、 旷 视 科 技 、 商 汤 科 技 等 。 
旷 视 科 技 的 Face++ 有 目前 世界 一 流 的 人 脸 追 踪 、 识 别 、 分 析 等 服务 应 用 ， 面 向 开发 者 的 云 平 台 
及 API、SDK， 已 经 可 以 直接 调用 。 
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以 上 是 人 工 智 能 应 用 的 两 个 例子 。 百 度 百 科 上 给 出 的 人 工 智能 的 解释 是 :“ 它 是 研究 、 开 
发 用 于 模拟 、 延 伸 和 扩展 人 的 智能 的 理论 、 方 法 、 技 术 及 应 用 系统 的 一 门 新 的 技术 科学 。 人 工 
智能 是 计算 机 科学 的 一 个 分 支 ， 它 企图 了 解 智能 的 实质 ， 并 生产 出 一 种 新 的 能 以 人 类 智能 相似 
的 方式 做 出 反应 的 智能 机 器 ， 该 领域 的 研究 包括 机 器 人 、 语 言 识 别 、 图 像 识 别 、 上 自然 语言 处 理 






































和 专家 系统 等 。”"” 






































简 而 言 之 ， 人 工 智 能 就 是 研究 用 计算 机 来 实现 人 类 的 智能 ， 例 如 ， 去 模仿 人 类 的 知觉 、 推 
理 、 学 习 能 力 等 , 从 而 让 计算 机 能 够 像 人 一 样 思考 和 行动 , 有 图 像 识别 〈 机 器 识别 出 猫 猫 狗 狗 入 







































































人 机 对 话 〈 机 器 感知 到 人 类 的 语义 和 情感 ， 并 给 出 反馈 )、 围 棋 的 人 机 对 奔 (AlphaGo、Master 





等 让 机 器 自己 思考 去 下 棋 ) 等 。 























国际 上 的 谷歌 、 人 苹果、 亚马逊 、 微 软 等 巨大 公司 都 在 “两 条 腿 走 路 ”， 一 方面 在 做 研发 项 
目 ， 如 “谷歌 大 脑 ”(Google Brain)， 另 一 方面 同时 发 力 智 能 家 居 ， 如 “Google Home 智能 音箱 ” 




















希望 把 设备 当成 人 来 交流 。 国 内 的 阿里 、 腾 讯 、 











百度 、 搜 狗 、 地 平 线 等 公司 以 及 很 多 不 同 领域 


的 创业 公司 也 都 在 积累 的 大 量 数据 上 ， 开 始 尝试 训练 出 高 效 的 模型 ， 不 断 优化 业务 指数 。 
那么 , 机 器 是 如 何 实现 人 类 的 智力 的 呢 ? 其 实 , 机 器 主要 是 通过 大 量 的 训练 数据 进行 训练 ， 


mi 


























是 结合 深度 神经 网 络 的 方法 来 训练 。 所 以 说 ， 
的 工具 。 





AlphaGo 的 原理 




















程序 不 断 地 进行 自我 学 习 和 修正 来 训练 出 一 个 模型 ， 而 模型 的 本 质 就 是 一 堆 参 数 ， 用 上 和 干 万 、 
上 上 亿 个 参数 来 描述 业务 的 特点 ， 如 “人 脸 ”“ 房 屋 地 段 价 格 ”“ 用 户 画 像 ” 的 特点 ， 从 而 接近 人 类 
智力 。 这 个 过 程 一 般 采 用 的 是 机 器 学 习 以 及 机 器 学 习 的 子 集 一 一 深度 学 习 (deep learning)， 也 就 
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深度 学 习 方法 迅速 实现 人 工 智能 很 有 效 




















20 年 前 ，IBM 的 “深蓝 ”计算 机 打败 人 类 








象棋 高 手 的 情景 仿佛 还 历历 在 目 。20 年 后 ， 人 工 智能 





挑战 最 难 的 棋 类 一 一 围棋 棋局 也 成 功 了 。 那么 AlphaGo 是 如 何 下 棋 的 呢 ? 我 们 知道 ,传统 计算 机 
的 下 棋 方 法 ， 一 般 采取 贪 林 算法， 用 Alpha-Beta 修剪 法 配合 Min-Max 算法 。 而 AlphaGo 采用 了 


蒙特 卡 洛 树 搜索 法 (Monte Carlo tree search, 


MCTS ) 和 深度 卷 积 神经 网 络 (deep convolutional neural 


network，DCNN ) 相 结合 。 模型 中 涉及 的 主要 网 络 及 作用 如 下 。 


e 估 值 网 络 (value network， 也 称 盘 面 评 





EAR) 计算 出 盘面 的 分 数 。 





o 策略 网 络 (policy network): 计算 对 于 下 每 一 个 棋子 的 概率 和 胜率 。 它 评估 对 手 和 自己 可 能 下 








的 位 置 ， 对 可 能 的 位 置 进行 评估 和 搜寻 
训练 模型 的 主要 过 程 分 为 以 下 4 步 。 
COL) 采用 分 类 的 方法 得 到 直接 策略 。 











(2) 直接 策略 对 历史 棋局 资料 库 进 行 神经 网 络 学 习 ， 得 到 习 得 策略 。 
(3 ) 采用 强化 学 习 的 方法 进行 自我 对 局 来 得 到 改良 策略 。 

















(D 参考 百度 百科 “人 工 智能 ”。 
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(4) 用 回归 的 方法 整体 统计 后 得 到 估 值 网 络 。 

这 里 的 神经 网 络 部 分 都 采用 的 是 深度 卷 积 神经 网 络 , 在 自我 对 局 的 部 分 采用 的 是 蒙特 卡 洛 树 状 搜 
寻 法 (MCTS). 

更 详细 的 论文 见 谷 歌 公司 发 表 在 《自然 》(Nature ) 上 的 论文 《Mastering the game of Go with deep 


neural networks and tree search). 








1.2 ”什么 是 深度 学 习 











深度 学 习 ， 顾 名 思 义 ， 需 要 从 “深度 ”和 “学 习 ” 两 方面 来 谈 。 














1. 深度 














深度 学 习 的 前 身 是 人 工 神经 网 络 (artificial neural network，ANN)， 它 的 基本 特点 就 是 试图 
模仿 人 脑 的 神经 元 之 间 传 递 和 处 理 信息 的 模式 。 神 经 网 络 这 个 词 本 身 可 以 指 生 物 神经 网 络 和 人 
工 神经 网 络 。 在 机 器 学 习 中 ， 我 们 说 的 神经 网 络 一 般 就 是 指 人 工 神经 网 络 。 
图 1-3 给 出 的 是 一 个 最 基本 的 人 工 神经 网 络 的 3 层 模型 。 




































































隐藏 层 
输入 层 





图 1-3 


人 工 神 经 网 络 由 各 个 层 组 成 ,输入 层 Ginput layer) 输入 训练 数据 ， 在 输出 层 Coutput layer) 
输出 计算 结果 ， 中 间 有 1 个 或 多 个 隐藏 层 (hidden layer)， 使 输入 数据 向 前 传播 到 输出 层 。“ 深 
度 ” 一 词 没有 具体 的 特 指 ， 一 般 就 是 要 求 隐藏 层 很 多 (一 般 指 5 层 、10 层 、 几 百 层 甚 至 几 千 层 )。 

人 工 神经 网 络 的 构想 源 自 对 人 类 大 脑 的 理解 一 一 神经 元 的 彼此 联系 。 二 者 也 有 不 同 之 处 ， 
人 类 大 脑 的 神经 元 是 按照 特定 的 物理 距离 连接 的 ， 而 人 工 神经 网 络 有 独立 的 层 和 连接 ， 还 有 数 
据 传播 方向 。 
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例如 ， 我 们 拿 一 张 图 片 ， 对 它 做 一 些 预 处 理 ， 如 图 像 居 中 、 灰 度 调整 、 梯 度 锐 化 、 去 除 噪 
声 、 倾 斜 度 调整 等 ， 就 可 以 输入 到 神经 网 络 的 第 一 层 。 然 后 ， 第 一 层 会 自己 提取 这 个 图 像 的 特 
征 ， 把 有 用 的 特征 向 下 传递 ， 直 到 最 后 一 层 ， 然 后 输出 结果 。 这 就 是 一 次 前 向 传播 Cforword 
propagation). 

最 后 一 层 的 输出 要 给 出 一 个 结论 ， 例 如 ， 在 分 类 问题 中 ， 要 告诉 我 们 到 底 输 入 的 图 像 是 哪 
个 类 别 ， 一 般 它 会 给 出 一 个 “概率 向 量 ”。 如 图 1-4 所 示 ， 列 出 了 这 只 猫 所 属 品种 的 前 5 个 概 
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图 1-4 


人 工 神经 网 络 的 每 一 层 由 大 量 的 节点 (神经 元 ) 组 成 ， 层 与 层 之 间 有 大 量 连 接 ， 但 是 层 内 
部 的 神经 元 一 般 相互 独立 。 深 度 学 习 的 目的 就 是 要 利用 已 知 的 数据 学 习 一 套 模 型 ， 使 系统 在 过 
见 未 知 的 数据 时 也 能 够 做 出 预测 。 这 个 过 程 需要 神经 元 具备 以 下 两 个 特性 。 

(1) 激活 函数 Cactivation function): 这 个 函数 一 般 是 非 线 性 函数 ， 也 就 是 每 个 神经 元 通过 
这 个 函数 将 原 有 的 来 自 其 他 神经 元 的 输入 做 一 个 非 线 性 变化 ， 输 出 给 下 一 层 神 经 元 。 激 活 函 数 
实现 的 非 线 性 能 力 是 前 向 传播 (forword propagation) 很 重要 的 一 部 分 。 

(2) 成 本 函数 (cost function): 用 来 定量 评估 在 特定 输入 值 下 ， 计 算出 来 的 输出 结果 距离 
这 个 输入 值 的 真实 值 有 多 远 ， 然 后 不 断 调整 每 一 层 的 权重 参数 ， 使 最 后 的 损失 值 最 小 。 这 就 是 
完成 了 一 次 反 向 传播 (backword propagation)。 损 失 值 越 小 ， 结 果 就 越 可 靠 。 

神经 网 络 算法 的 核心 就 是 计算 、 连 接 、 评 估 、 纠 错 和 训练 ， 而 深度 学 习 的 深度 就 在 于 通过 不 断 
增加 中 间 隐 藏 导数 和 神经 元 数量 ， 让 神经 网 络 变 得 又 深 又 宽 ， 让 系统 运行 大 量 数 据 ， 训 练 它 。 





































































































































































































2. 学 习 





什么 是 “学 习 ”? 有 一 些 成 语 可 以 概括 : 举一反三 、 闻 一 知 十 、 触 类 旁 通 、 问 牛 知 马 、 融 会 
贯通 等 。 计 算 机 的 学 习 和 人 类 的 学 习 类 似 ， 我 们 平时 大 量 做 题 〈 训 练 数据 )， 不 断 地 经 过 阶段 性 
考试 〈 验 证 数据 ) 的 检验 ， 用 这 些 知识 和 解 题 方法 〈 模 型 ) 最 终 走 向 最 终 〈 测 试 数据 ) 的 考场 。 

最 简单 也 最 普遍 的 一 类 机 器 学 习 算 法 就 是 分 类 (classification)。 对 于 分 类 ， 输 入 的 训练 数 
据 有 特征 〈feature)， 有 标记 〈label)， 在 学 习 中 就 是 找 出 特征 和 标记 间 的 映射 关系 (mapping), 
通过 标记 来 不 断 纠正 学 习 中 的 偏差 , 使 学 习 的 预测 率 不 断 提 高 。 这 种 训练 数据 都 有 标记 的 学 习 ， 
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学 
无 监督 学 习 Cunsupervised learning) 则 看 起 来 非常 困难 。 无 监督 学 习 的 目的 是 让 计算 机 自 
己 去 学 习 怎 样 做 一 些 事 情 。 因 此 ， 所 有 数据 只 有 特征 而 没有 标记 。 

无 监督 学 习 一 般 有 两 种 思路 : 一 是 在 训练 时 不 为 其 指定 明确 的 分 类 ， 但 是 这 些 数据 会 呈现 

聚 群 的 结构 ， 彼 此 相似 的 类 型 会 聚集 在 一 起 。 计 算 机 通过 把 这 些 没 有 标记 的 数据 分 成 一 个 个 

组 合 , 就 是 聚 类 (clustering); 二 是 在 成 功 时 采用 某 种 形式 的 激励 制度 , 即 强化 学 习 (reinforcement 
learning，RL)。 对 强化 学 习 来 说 ， 它 虽然 没有 标记 ， 但 有 一 个 延迟 奖赏 与 训练 相关 ， 通 过 学 习 
过 程 中 的 激励 函数 获得 某 种 从 状态 到 行动 的 映射 。 强 化 学 习 一 般 用 在 游戏 、 下 棋 (如 前 面 提 到 
的 AlphaGo) 等 需要 连续 决策 的 领域 。(6.7.1 节 会 讲解 强化 学 习 的 应 用 。) 

有 人 可 能 会 想 ， 难 道 就 只 有 有 监督 学 习 和 无 监督 学 习 这 两 种 非 黑 即 白 的 关系 吗 ? 二 者 的 中 
间 地 带 就 是 半 监 督学 习 (semi-supervised learning)。 对 于 半 监 督学 习 ， 其 训练 数据 一 部 分 有 标 
记 ， 田 一 部 分 没有 标记 ， 而 没 标记 数据 的 数量 常常 极 大 于 有 标记 数据 的 数量 (这 也 符合 现实 ， 
大 部 分 数据 没有 标记 ， 标 记 数 据 的 成 本 很 大 )。 它 的 基本 规律 是 ， 数据 的 分 布 必 然 不 是 完全 随 
机 的 ， 通 过 结合 有 标记 数据 的 局 部 特征 ， 以 及 大 量 没 标记 数据 的 整体 分 布 ， 可 以 得 到 比较 好 的 
分 类 结果 。 


因此 , “学习 ” 家 族 的 整体 构造 如 图 1-5 所 示 o 


图 1-5 






































































































































































































































































































































































































































关于 有 监督 学 习 和 无 监督 学 习 在 实战 中 的 应 用 ， 会 在 本 书 “ 实 战 篇 ”中 介绍 。 








1.3 ”深度 学 习 的 入 门 方法 


要 想 入 门 深度 学 习 ， 需 要 两 个 工具 ， 即 算法 知识 和 大 量 的 数据 ， 外 加 一 台 计 算 机 ， 如 果 有 
GPU 就 更 好 了 ， 但 是 因为 许多 入 门 初学 者 的 条 件 有 限 ， 没 有 GPU 也 可 以 ， 本 书 的 许多 讲解 都 
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斯 康 星 大 学 麦迪 壕 分 校 一 个 ppt 的 第 14 页 : http;//pages.cs.wisc.edu/— jerryzhu/pub/sslicml07.pdf. 
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>> 第 一 篇 ”基础 篇 











是 基于 Mac 笔记 本 完成 的 。 











我 把 深度 学 习 的 入 门 过 程 整理 成 图 1-6 Bros B 7 个 步骤 。 








1 ”数学 知识 


概率 论 与 数理 统计 
高 等 数学 
线性 代数 


2 “机 器 学 习 理论 与 算法 


LR、SVM 、 决 策 树 、RE.… 


3 编程 工具 








4 研读 论文 、 公 众 号 、 博 客 






5 动手 训练 
进行 演示 案例 、 自 己 实现 演示 案例 





6 ”深入 工作 相关 领域 


计算 机 视觉 、 自 然 语言 处 理 

















下 面 就 来 详细 介绍 一 下 这 7 个 步骤 。 


























1. 学 习 或 者 回忆 一 些 数学 知识 








因为 计算 机 能 做 的 就 只 





LeNet、GoogleNet、AlexNet、LSTM、GAN 





7 遇 到 问题 
重复 1~6 步 


是 计算 ， 所 以 人 工 智能 更 多 地 来 说 还 是 数学 问题 ”。 我 们 的 目标 是 








训练 出 一 个 模型 ， 用 这 个 模型 去 进行 一 系列 的 预测 。 本 











F 是， 我 们 将 训练 过 程 涉及 的 过 程 抽象 成 











数学 函数 ， 首先 ， 需 要 定义 一 个 网 络 结构 ， 相 当 于 定义 一 种 线性 非 线性 函数 ， 接 着 





优化 目标 ， 也 就 是 定义 一 种 损失 函数 doss function). 
而 训练 的 过 程 ， 就 是 求解 最 优 解 及 次 优 解 的 过 程 。 








， 设 定 一 个 








在 这 个 过 程 中 ， 我 们 需要 掌握 基本 的 概 








率 统计 、 高 等 数学 、 线 性 代数 等 知识 ， 如 果 学 过 就 最 好 ， 没 学 过 也 没关系 ， 仅 仅 知 道 原理 和 过 





© 














这 里 ， 一 些 人 担心 人 工 智 能 超越 人 类 还 会 产生 哲学 和 伦理 问题 。 
本 Len 
p 方向 。 

















我 认为 做 这 种 讨论 还 为 时 尚 早 ， 严 说 的 数据 基础 
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程 即 可 ， 有 兴趣 的 读者 可 以 涉猎 一 些 推导 证 明 。 



































2. 掌握 经 典 机 器 学 习 理 论 与 基本 算法 

















这 些 基本 算法 包括 支持 向 量 机 、 逻 辑 回 归 、 决 策 树 、 杆 素 贝 叶 斯 分 类 器 、 随 机 森林 、 聚 类 
算法 、 协 同 过 滤 、 关 联 性 分 析 、 人 工 神经 网 络 和 BP 算法 、PCA、 过 拟 合 与 正则 化 等 。” 
在 本 书 “ 实 战 篇 ”的 第 8 章 到 第 13 章 的 例子 中 也 有 贯穿 这 些 算法 知识 ， 保 证 读者 可 以 用 它 
bh 一 个 小 的 TensorFlow 程序 。 




































































WM 
Er 


3. 掌握 一 种 编程 工具 (语言 














Python 语言 是 一 种 解释 型 、 面 向 对 象 、 动 态 数据 类 型 的 高 级 程序 设计 语言 。Python 是 很 多 
新 入 门 的 程序 员 的 入 门 编程 语言 ， 也 是 很 多 老 程 序 员 后 来 必须 掌握 的 编程 语言 。 我 们 需要 重点 
掌握 使 用 线性 代数 库 和 和 矩阵 的 操作 ， 尤 其 是 Numpy、Pandas 第 三 方 库 ， 也 要 多 试 试 机 器 学 习 的 
"VE, W sklearn， 做 一 些 SVM 及 逻辑 回归 的 练习 。 这 对 直接 上 手写 TensorFlow 程序 大 有 神 益 。 


有 些 工 业 及 学 术 领 域 的 读者 还 可 能 擅长 MATLAB 或 R， 其 实现 算法 的 思想 和 Python 也 很 










































































line 


















































同时 考虑 到 许多 读者 是 使 用 CH, Java. Go 语言 的 ，TensorFlow 还 提供 了 和 Python ^^P1T 
语料库 ”的 接口 。 虽 然 本 书 是 主要 是 基于 Python 讲解 的 ， 对 于 其 他 请 言 的 原理 和 应 用 API 也 都 
非常 类 似 ， 读 者 把 基础 掌握 后 ， 只 需要 花 很 短 的 时 间 就 能 使 用 自己 擅长 的 语言 开发 。 男 外 对 于 
Java 语言 的 同学 ， 本 书 第 18 章 会 讲解 TensorFlowOnSpark， 第 19 章 会 讲 到 TensorFlow 的 移动 
端 开 发 。 
































































































































4. 研读 经 典 论文 ， 关 注 最 新 动态 和 研究 成 果 























些 经 典 论文 是 必 读 的 。 例 如 ， 要 做 手写 数字 识别 ， 若 采用 LeNet， 要 先 阅读 一 下 LeNet 
的 学 术 论 文 ; 要 做 物体 目标 检测 的 训练 , 知 选 定 MSCNN 框架 , 可 以 先 读 MSCNN 相关 的 论文 。 
那么 ， 论 文 从 哪里 找 呢 ? 那么 多 论文 应 该 读 哪 篇 呢 ? 

下 面 以 GoogleNet 的 TensorFlow 实现 为 例 。 在 GitHub? 上， 一 般 在 开头 的 描述 中 就 会 说 明 
这 个 模型 所 依据 的 论文 ， 如 图 1-7 所 示 。 

顺 着 这 篇 论文 阅读 ， 可 以 大 致 了 解 这 个 网 络 的 实现 原理 ， 对 迅速 上 手 应 用 有 很 大 的 作用 。 
同时 ， 我 在 第 6 章 也 会 对 LeNet、AlexNet、ResNet 这 儿 个 常见 的 网 络 进行 讲解 ， 帮 助 读 者 举 一 
Jg. 







































































































































































(D 推荐 读者 阅读 李 航 老师 的 《统计 学 习 方法 》 很 快 就 能 入 门 。 
© https://github.com/tensorflow/models/tree/master/inception 
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>> 55— Fa 


基础 篇 








http://arxiv.org/abs/1512.00567 


Inception in TensorFlow 


ImageNet is a common academic data set in machine learning for training an image recognition system. Code in this 
directory demonstrates how to use TensorFlow to train and evaluate a type of convolutional neural network (CNN) on this 
academic data set. In particular, we demonstrate how to train the Inception v3 architecture as specified in: 


Rethinking the Inception Architecture for Computer Vision 


Christian Szegedy, Vincent Vanhoucke, Sergey loffe, Jonathon Shlens, Zbigniew Wojna 








很 多 做 模式 识别 的 工作 者 之 所 以 厉害 ， 








图 1-7 





是 





大 




















为 他 们 有 过 很 多 、 很 深 的 论文 积累 ， 对 模型 的 


























































































































设计 有 很 独到 的 见解 ， 而 他 们 可 能 甚至 一 行 代码 也 不 会 写 ， 而 工程 ( 写 代码 〉 能 力 在 工作 中 
很 容易 训练 。 许 多 工程 方向 的 软件 工程 师 ， 工 作 模 式 常 常 在 实现 业务 逻辑 和 设计 架构 系统 上 ， 
编码 能 力 很 强 ， 但 却 缺 少 论文 积累 。 同 时 具有 这 两 种 能 力 的 人 ， 正 是 硅谷 一 些 企业 目前 青睐 
的 人 才 。 

读者 平时 还 可 以 阅读 一 些 博 客 、 笔 记 ， 以 及 微 信 公 众 写 、 微 博 新 媒体 资讯 等 ， 往 往 一 些 很 
流行 的 新 训练 方法 和 模型 会 很 快 在 这 些 媒体 上 发 酵 ， 其 训练 神经 网 络 采用 的 一 些 方法 可 能 有 很 


大 的 启发 性 。 





5. 自己 动手 训练 神经 网 络 





接着 ， 就 是 要 选择 一 个 开源 的 深度 学 习 框架 。 
气 旺 后 ， 遇 到 问题 很 容易 找到 答案 ，GitHub 上 关于 这 个 框架 的 项 目 和 演示 会 
文 也 会 层出不穷 ， 在 各 个 QQ 和 群 和 微 
行业 交流 和 技术 峰会 讨论 的 话题 也 多 ; 
目前 这 个 阶段 ，TensorFlow 因为 背 革 
了 称 为 “可 执行 的 伪 代 码 ” 的 Python 














多 ; 























而 且 采 用 











过 群 的 活跃 


也 





选择 框架 





& 时 主要 考虑 哪 种 框架 用 的 人 多 。 人 








EFA Er 
Zs e5; 





LE 常 多 ， 相 关 的 论 








杂志 、 公 众 号 、 微 博 关 注 的 人 也 会 很 





PES 
能 享受 














谷歌 公 
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已 经 升级 到 1.1 版 ， 在 性 能 方 
也 是 其 


























面 也 有 
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Li 








H 
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度 提 高 , 而 






































多 成 果 ， 其 
对 于 不 同 工 程 背景 


在 GitHub 上 有 一 个 关于 各 种 让 























Keras 还 得 到 TensorFlow 


也 框架 所 不 及 的 。 此 外 ， 一 些 外 上 上 





的 人 转 入 的 门槛 正在 




















TensorFlow 的 star 数 已 经 超过 了 其 他 所 有 框架 的 总 和 ， 如 





EHE 








到 国内 外 


司 这 座 靠山 ， 再 加 上 拥有 庞大 的 开发 者 群体 ， 
语言 ,更 新 和 发 版 速度 着 实 非常 快 。 目前 TensorFlow 
新 出 现 的 Debugger. Serving. XLA 特性 
的 第 三 方 库 (如 Keras, TFLeam) 也 基于 它 实现 了 很 
官方 的 文 持 。TensorFlow 文 持 的 上 层 语 言 也 在 逐渐 增多 ， 
降低 。 

的 比较 ， 从 建 模 能 力 、 接 口 、 模 型 部 署 、 性 能 、 
生态 系统 、 跨 平台 等 7 个 方面 进行 比较 ，TensorFlow 也 很 占 综合 优势 。 截 至 2017 











究 信息 成 果 的 同步 。 
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月 ， 
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Z] 





1-8 所 示 。 





因此 ， 从 目前 来 看 ， 投 身 TensorFlow 是 一 个 非常 好 的 选择 ， 掌 握 TensorFlow 在 找 工 作 时 





(D https://github.com/zer0n/deepframeworks 
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是 一 个 非常 大 的 加 分 项 。 








Computation using data flow graphs for scalable machine learning http://tensorflow.org 
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图 1-8 








接 下 来 就 是 找 一 个 深度 神经 网 络 ， 目 前 的 研究 方向 主要 集中 在 视觉 和 语音 两 个 领域 。 初 学 




















者 最 好 从 计算 机 视觉 入 手 ， 因 为 它 不 像 语音 等 领域 需要 那么 多 的 领域 知识 ， 结 
例如 ， 























y 








6. 深入 感 兴趣 或 者 工作 相关 领域 


果 也 比较 直观 。 
日 各 种 网 络 模 型 来 训练 手写 数字 (MNIST) 及 图 像 分 类 CCIFARO. 的 数据 集 。 























人 工 智 能 目前 的 应 用 领域 很 多 ， 主 要 是 计算 机 视觉 和 自然 语言 处 理 ， 以 及 各 种 预测 等 。 对 























于 计算 机 视觉 ， 可 以 做 图 像 分 类 、 目 标 检测 、 视 频 中 的 目标 检测 等 ， 对 于 自然 语言 处 理 ， 可 以 
做 语音 识别 、 语 音 合成 、 对 话 系统 、 机 器 翻译 、 文 章 摘 要 、 情 感 分 析 等 ， 还 可 以 结合 图 像 、 视 


























频 和 语音 ， 一 起 发 挥 价值 。 




















H 
H 








问答 系统 ， 深 入 智能 家 居 领 域 ,做 人 机 的 上 自然 语言 交互 ， 等 等 。 














7. 在 工作 中 遇 到 问题 ， 重 复 前 六 步 











在 训练 中 ， 准 确 率 、 坏 案例 (bad case)、 识 别 速度 等 都 是 可 能 遇 到 的 瓶颈 。 
也 不 是 一 成 不 变 的， 需要 不 断 优化 ， 也 需要 结合 具体 行业 领域 和 业务 进行 创新 ， 





























合 最 新 的 科研 成 果 ， 调 整 模型 ， 更 改 模型 参数 ， 一 步 步 更 好 地 贴近 业务 需求 。 


1.4 什么 是 TensorFlow 


























算 机 对 战国 际 象棋 ， 也 需要 很 多 象棋 的 知识 。 











IK 





更 可 以 深入 某 一 个 行业 领域 。 例 如 ， 深 入 医学 行业 领域 ， 做 医学 影像 的 识别 ， 深 入 淘宝 的 
罕 衣 领域 ， 做 衣服 搭配 或 衣服 款 型 的 识别 ， 深 入 保险 业 、 通 信 业 的 客服 领域 ， 做 对 话机 器 人 的 
智能 





训练 好 的 模型 
这 时 候 束 要 结 








想 想 ， 在 机 器 学 习 流行 之 前 ， 我 们 是 如 何 做 与 语音 和 图 像 相关 的 识别 的 ?大 多 数 是 基于 规 
则 的 系统 。 例 如 ， 做 自然 语言 处 理 ， 需 要 很 多 语言 学 的 知识 ， 再 如 ，1997 年 的 IBM 的 深蓝 计 


以 统计 方法 为 核心 的 机 器 学 习 方 法 成 为 主流 后 ， 我 们 需要 的 领域 知识 就 相对 少 了 。 重 要 


的 是 做 特征 工程 (feature engineering), 然后 调 一 些 参数 , 根据 一 些 领 域 的 经 验 来 不 断 提 取 特 征 ， 
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特征 的 好 坏 往 往 就 直接 决定 了 模型 的 好 坏 。 这 种 方法 的 一 大 缺点 是 ， 对 文字 等 抽象 领域 ， 特 征 
还 相对 容易 提取 ， 而 对 语音 这 种 一 维 时 域 信 号 和 图 像 这 种 二 维 空域 信号 等 领域 ， 提 取 特 征 就 相 
对 困难 。 

深度 学 习 的 革命 性 在 于 ， 它 不 需要 我 们 过 多 地 提取 特征 ， 在 神经 网 络 的 每 一 层 中 ， 计 算 机 
都 可 以 自动 学 习 出 特征 。 为 了 实现 深度 学 习 中 运用 的 神经 网 络 ，TensorFlow 这 样 的 深度 学 习 开 
源 工具 就 应 运 而 生 。 我 们 可 以 使 用 它 来 搭建 自己 的 神经 网 络 。 这 就 有 点 儿 类 似 于 PHP 开发 当中 
的 Codelgniter 框架 , Java 开发 当中 的 SSH 三 大 框架 , Python 开发 当中 的 Tornado, Django HEX, 
C++ 当中 的 MFC, ACE 框架 。 框 架 的 主要 目的 就 是 提供 一 个 工具 箱 ， 使 开发 时 能 够 简化 代码 ， 
呈现 出 来 的 模型 尽 可 能 简洁 易 懂 。 



























































































































































1.5 为 什么 要 学 TensorFlow 


首先 ，TensorFlow 的 一 大 亮点 是 支持 异 构 设备 分 布 式 计算 (heterogeneous distributed 
computing), 


何 为 异 构 ? 信息 技术 当中 的 异 构 是 指 包含 不 同 的 成 分 ， 有 蜡 构 网 络 〈 如 互联 网 ， 不 同 厂家 
的 硬件 软件 产品 组 成 统一 网 络 且 互相 通信 )、 蜡 构 数 据 库 〈 多 个 数据 库 系 统 的 集合 ， 可 以 实现 
数据 的 共享 和 透明 访问 )。 这 里 的 异 构 设 备 是 指使 用 CPU、GPU 等 核心 进行 有 效 地 协同 合作 ; 
与 只 依靠 CPU 相 比 ， 性 能 更 高 ， 功 耗 更 低 。 

那 何 为 分 布 式 ? 分 布 式 架构 目的 在 于 帮助 我 们 调度 和 分 配 计算 资源 (其 至 容错 ， 如 某 
个 计算 节点 宕 机 或 者 太 慢 )， 使 得 上 千 万 、 上 亿 数 据 量 的 模型 能 够 有 效 地 利用 机 器 资源 进行 
训练 。 

图 1-9 给 出 的 是 开源 框架 TensorFlow 的 标志 。 






















































































tensorflow 


http://www.tensorflow.org github-admin@tensorflow.org 

















图 1-9 


TensorFlow 支持 卷 积 神经 网 络 (convolutional neural network, CNN) 和 循环 神经 网 络 
(recurrent neural network, RNN), X RNN 的 一 个 特例 长 短期 记忆 网 络 (long short-term memory, 
LSTM)， 这 些 都 是 目前 在 计算 机 视觉 、 语 音 识别 、 自 然 语 言 处 理 方面 最 流行 的 深度 神经 网 















































QD ”参考 百度 百科 “ 异 构 数据 库 ”。 








络 模型 。 





下 面 参考 《The Unreasonable Effectiveness of Recurrent Neural Networks) ”这 篇 文章 梳理 了 




















一 个 有 效 框架 应 该 具有 的 功能 
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e Tensor 库 是 对 CPU/GPU 透明 的 ， 并 且 实 现 了 很 多 操作 〈 如 切片 、 数 组 或 矩阵 操作 等 )。 























这 里 的 透明 是 指 ， 在 不 同 设备 上 如 何 运行 ， 都 是 框架 








定 在 哪个 设备 上 进行 哪 种 运算 即 可 。 



































帮 用 户 去 实现 的 ， 用 户 只 需要 指 

















e 有 一 个 完全 独立 的 代码 库 ， 用 脚本 语言 

















e 可 以 轻松 地 共享 预 训练 模型 (如 Caffe 的 模型 
e 没有 编译 过 程 。 深 度 学 习 是 朝 着 更 大 、 更 复杂 的 网 络 发 展 的 ， 因 此 在 复杂 图 算法 中 























(最 理想 的 是 Python) 来 操作 Tensors， 并 日 


现 所 有 深度 学 习 的 内 容 ， 包 括 前 向 传播 / 反 向 传播 、 











将 





图 形 计算 等 。 








J 及 TensorFlow 中 的 slim 模块 )。 









































花费 的 时 间 会 成 倍增 加 。 而 且 ， 进 行 编译 

















的 能 











在 我 看 来 ， 在 目前 的 深度 学 习 的 研究 领域 主要 有 以 下 3 类 






































e 学 者 。 主 要 做 深度 学 习 的 理论 研究 ， 研 究 如 何 设 计 一 
及 为 什么 这 样 修改 效果 会 好 。 平 时 的 工作 主要 是 关注 科研 前 治 和 进行 理论 研究 、 横 型 
































实验 等 ， 对 新 技术 、 新 理论 很 人 敏感。 





e 算法 改进 者 。 这 些 人 为 了 把 现 有 的 网 络 模型 能 够 适 配 自 己 的 应 用 ， 达 到 更 好 的 效果 
会 对 模型 做 出 一 些 改进 ， 把 一 些 新 算法 改进 应 用 至 
基础 的 应 用 服务 ， 如 基础 的 语音 识别 服务 、 基 础 的 人 脸 识别 服务 ， 为 其 









































提供 优 展 的 模型 。 


























e 工业 研究 者 。 这 类 人 群 不 会 涉及 太 深 的 算法 ， 主 要 



































的 话 会 于 失 可 解释 性 和 有 效 进行 日 志 调 试 








AB. 
个 “网 络 模型 ” 如 何 修改 参数 以 















































I 现 有 模型 中 。 这 类 人 主要 是 做 一 



























































过 R ~ 











cr 


,上层 应 用 














掌握 各 种 模型 的 网 络 结构 和 一 些 算 




















法 实现 。 他 们 更 多 地 是 阅读 优秀 论文 ， 根 据 论文 去 复 现成 果 ， 然 后 应 用 到 自己 所 在 的 
工业 领域 。 这 个 层次 的 人 也 是 现在 深度 学 习 研 究 




















的 主流 人 群 。 

















我 相信 本 书 的 读者 也 大 都 是 第 二 类 和 第 三 类 人 群 ， 且 以 第 三 类 人 群居 多 。 














而 在 工业 界 ，TensorFlow 将 会 比 其 他 框架 更 



























































优势 。 工 业界 的 目标 是 把 模型 落实 到 产品 上 ， 
































而 产品 的 应 用 领域 一 般 有 两 个 : 一 是 基于 服务 端的 大 数据 服务 ， 让 用 户 直接 体验 到 服务 端 强 大 














的 计算 能 力 〈 谷 歌 云 平 台 及 谷歌 搜索 功能 );， — Je ELBEI 








以 及 一 些 智能 产品 的 能 入 式 。 

















坐 拥 Android 的 市 场 份额 和 影响 力 的 谷歌 公 














的 模型 压缩 和 8 位 低 精度 数据 存储 详 见 第 19 






































司 ， 在 这 两 个 方向 都 很 强大 。 此 外 ， 谷 歌 力 推 
38) 不 仅 对 
程度 上 也 能 使 算法 在 移动 设备 上 的 部 署 获 益 ， 这 些 优 化 举措 将 会 使 存储 需求 和 内 存 带 宽 要 求 降 


























j 向 终端 用 户 的 移动 端 (Android 系统 ) 














训练 系统 本 身 有 优化 作用 ， 在 某 种 








低 ， 并 且 使 性 能 得 到 提升 ， 对 移动 设备 的 性 能 和 功 耗 非常 有 利 。 








(D http://karpathy.github.io/2015/05/21/rnn-effectiveness/ 
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如 果 一 个 框架 的 用 户 生态 好 ， 用 的 人 就 会 很 多 ， 而 用 的 人 多 会 让 用 户 生态 更 繁 








也 就 会 更 多 。 这 庞大 的 用 户 数 就 是 TensorFlow 框架 的 生命 力 。 























的 人 





截至 2017 年 1 月 ， 与 Caffe、Theano、Torch、MXNet 等 框架 相 比 ，TensorFlow 在 GitHub 






























































上 Fork 数 和 Star 数 都 是 最 多 的 ， 如 图 1-10 所 示 。 
tensorflow /tensorflow Q9 Watch - 4,084 W Unstar 44,353 Fork 20,693 
BVLC / caffe Q Watch» — 1,805 X Star — 15,656 Sy Fork 9,647 
torch / torch7 Q Watch» — 641 Á Star 6,284 YFork 1,835 
Theano / Theano QWatch- 504 Star 5,558 VFork 1,925 
图 1-10 
图 1-11 展示 了 截至 2017 年 2 月 ， 近 些 年 儿 大 机 器 学 习 框架 的 流行 程度 。 
Bb 框架 GitHub 星 数 
Bl TensorFlow ……… 44580 
TensorFlow - 
37500 I scikit-learn .. 16191 
B Caffe .… 15690 
B CNI . 9383 
25000 B MXNet . 7896 
P3 Torch .... ... 9285 
Bl Theano 5568 


12500 























用 于 数值 计算 的 开源 软件 库 。 只 











高 度 的 灵活 性 〈deep flexibility )。TensorFlow 是 一 个 采用 数据 流 图 (data flow graph), 
要 计算 可 以 表示 为 一 个 数据 流 





图 ， 就 可 以 使 用 














TensorFlow, 只 需要 构建 图 , 书写 计算 的 内 部 循环 即 可 。 
经 网 络 库 ” 用 户 也 可 以 在 TensorFlow 上 封装 自己 的 “ 


























M. 它 并 不 是 一 个 严格 的 “ 神 
F 层 库 ”， 如 果 发 现 没有 上 自己 想 



































要 的 底层 操作 , 用 户 也 可 以 

















(D https://www.tensorflow.org/ 


yi 








己 写 C++ 代 码 来 丰富 。 关 于 封装 的 “上 层 库 ”，TensorFlow 


现在 有 很 多 开源 的 上 
































ZEL 

















kt， 极 大 地 减少 了 重复 代码 量 ， 
真正 的 可 移植 性 (true portability)。TensorFlow 可 以 在 CPU 和 GPU 上 运行 ， 以 及 在 台 
式 机 、 服 务 器 、 移 动 端 、 云 端 服 务 器 、Docker 容器 等 各 个 终 有 


一 个 新 点 子 ， 就 可 以 立即 在 笔记 本 上 进行 尝试 。 


将 科研 和 产品 
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端 运 行 。 因 此 ， 当 用 户 有 


在 第 7 章 中 会 详细 介绍 。 



































结合 在 一 起 (connect research and production )。 过 去 如 果 将 一 个 科研 的 


机 器 学 习 想 法 应 用 到 商业 化 的 产品 中 ， 需 要 很 多 的 代码 重 写 工作 。 现 在 TensorFlow 


提供 了 一 个 快速 试验 的 机 
出 率 。 
自动 求 微分 Cauto-differentiation),. SKM 





用 
加 
多 
用 





TensorFlow 后 


语言 
户 的 程序 ， 而 核心 部 分 是 用 C++ 实现 上 
TensorFlow 的 架构 。 用 


视 化 每 一 步 的 特征 映射 (feature map). H 








AL EL ] 


























， 只 需要 定义 预测 模型 的 结构 和 
相应 的 数据 ，TensorFlow 就 会 自动 完成 i 
支持 (language options )。TensorFlow 提供 了 Python, C++, Java 接口 来 构建 
的 ， 如 图 1-12 所 示 。 第 4 章 ! 
户 也 可 以 使 用 Jupyter Notebook 来 书写 笔记 、 代 码 ， 以 及 可 





分 是 基于 梯度 的 机 器 学 习 算法 的 重要 一 步 
标 函 数 ， 将 两 者 结合 在 一 起 后 ， 添 
十 算 微 分 操作 。 


















































R 等 ) 的 接口 。 





最 优化 性 能 (maximize performance )。 假 如 用 
的 机 器 ， 如 何 将 计算 机 的 所 有 硬件 计算 资源 全 痢 
队列 、 


户 也 可 以 用 











EE 架 ， 可 以 尝试 新 算法 ， 并 训练 出 模型 ， 大 大 提高 了 科研 产 


。 使 




















会 着 重 讲解 











F 发 更 多 其 他 语言 (如 Go. Lua. 


核心 TensorFlow 执行 系统 





图 





1-12 











Py 
























































于 分 布 式 ， 将 在 第 14 章 介绍 。 








1.5.2 ”使 用 TensorFlow 的 公司 





除了 谷歌 在 
Dropbox, Airbnb 等 公司 ， 都 在 尝试 使 用 


Uber, eBay. 
官方 网 站 的 日 








自己 的 产品 线 上 使 用 TensorFlow 外 ， 




















ES 


























益 壮 大 的 公司 墙 。 





(D http://ipython.org/notebook.html 














内 的 京东 、 了 
TensorFlow。 图 1-13 是 摘自 


32 个 CPU 内 核 、 4 个 GPU 
发挥 出 来 呢 ? TensorFlow 给 予 线程 、 
分 布 式 计算 等 文 持 ， 可 以 让 用 户 将 TensorFlow 的 数据 流 医 
配 到 不 同 的 设备 上 ， 最 大 化 地 利 ) 


显卡 














Va 


上 的 不 同 计算 元 素 分 














人 硬件 资源 。 关 于 线程 和 队列 ， 将 在 4.9 节 中 介绍 ; X 





\ 米 等 公司 ， 以 及 国外 的 











TensorFlow 
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© DeepMind 
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12 Dropbox ebay 
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Quarconw 
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1.5.3 TensorFlow 的 发 展 


2016 4j 


E4 H, TensorFlow 的 0.8 版 本 就 文 持 了 分 布 式 、 文 持 多 GPU 运算 。2016 4E 6 H, 
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TensorFlow 的 0.9 版 本 改进 了 对 移动 设备 的 支持 。2017 年 2 H, TensorFlow 的 1.0 正式 版 本 中 ， 


增加 了 Java 和 Go 


t£.transform 


价 为 “第 一 次 清晰 


， 专 门 











的 实验 性 API， 以 及 专用 



































] 户 还 可 以 使 









































1.6 


社区 ， 应 该 能 让 用 
RE 201743 H, 





机 器 学 


pa 























E 仿 上 领先 


















































习 的 相关 赛事 












































编译 器 XLA 和 调试 工具 Debugger， 还 发 布 了 
来 数据 预 处 理 。 并 且 还 推出 了 “动态 图 计算 ”TensorFlow Fold， 这 是 被 评 
地 在 设计 型 
谷歌 公司 的 PaaS TensorFlow 产品 Cloud Machine Learning 来 做 分 布 式 训 
练 。 现 在 也 已 经 有 了 完整 的 TensorFlow Model Zoo. 

另外 ，TensorFlow 出 色 的 版 本 管理 
用 起 来 相当 顺手 。 
] TensorFlow 作为 生产 平台 和 科研 基础 研发 已 经 越 来 越 坚 实 可 靠 。 





EE 和 细致 的 官方 文档 手册 ， 以 及 很 容易 找到 解答 的 繁荣 的 























说 到 机 器 学 习 ， 不 得 不 提 到 每 年 的 一 些 挑战 赛 。 近 年 来 取得 好 成 绩 的 队伍 ， 和 常常 时 使 用 深 


度 学 习 的 方法 的 。 了 














FE 是 这 些 赛 事 激 励 着 全 世界 科学 家 不 断 采 用 更 优化 的 方法 提高 算法 结果 的 准 





























(D 参考 论文 《Deep Leaning with Dynamic Computation Graphs): https://openreview.net/pdf?id-ryrGawqex - 
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确 率 ， 也 引领 着 年 度 的 深度 学 习 探索 方向 。 














1.6.1 ImageNet 的 ILSVRC 


ILSVRC (ImageNet Large Scale Visual Recognition Challenge， 大 规模 视觉 识别 挑战 赛 ) 是 
日 来 大 规模 评估 对 象 检测 和 图 像 识别 的 算法 的 挑战 赛 。 从 2010 年 开始 , 至 2016 年 已 举办 7 届 。 
ImageNet 是 目前 世界 上 最 大 的 图 像 识别 数据 库 ， 拥 有 超过 1500 万 张 有 标记 的 高 分 辨 率 图 像 的 
数据 集 ， 这 些 图 像 分 属于 大 概 22 000 个 类 别 。ILSVRC 使 用 ImageNet 的 一 个 子 集 ， 分 为 1 000 
种 类 别 ， 每 种 类 别 中 都 有 大 约 1000 张 图 像 。 总 之 ， 大 约 有 120 万 张 训练 图 像 ，5 万 张 验证 图 
像 和 15 万 张 测试 图 像 。 图 1-14 所 示 为 ImageNet 的 官方 网 站 。 
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ImageNet is an image database organized according to the WordNet hierarchy (currently only the nouns), 
in which each node of the hierarchy is depicted by hundreds and thousands of images. Currently we have 
an average of over five hundred images per node. We hope ImageNet will become a useful resource for 
researchers, educators, students and all of you who share our passion for pictures. 

Click here to learn more about ImageNet, Click here to join the ImageNet mailing list 





Check out the ImageNet Challenge 2016 


2016 Stanford Vision Lab, Stanford University, Princeton University support&image-netorg Copyright infringement 











图 1-14 











ILSVRC 每 年 邀请 谷歌 、 微 软 、 百 度 等 开 企业 使 用 ImageNet, 测试 他 们 图 片 分 类 系统 运行 
情况 。 过 去 几 年 中 ， 该 系统 的 图 像 识 别 功 能 大 大 提高 ， 出 错 率 仅 为 约 5%〔 比 人 眼 还 低 ， 人 
眼 的 识别 错误 率 大 概 在 5.1%). Æ 2015 4E, ILSVRC 的 错误 率 已 经 降低 到 了 3.57%”， 采 用 
152 层 的 ResNet 获得 了 2015 年 分 类 任务 的 第 一 名 。ILSVRC 历年 的 Top-5 错误 率 如 图 1-15 
所 示 。 

在 ImageNet 上 ， 习 惯性 地 报告 两 个 错误 率 : Top-1 和 Top-5. Top-1 错误 率 是 指 ， 预 测 输出 





























参考 论文 《ImageNet Classification with Deep Convolutional Neural Networks): http://www.cs.toronto.edu/—fritz/absps/ 
imagenet.pdf. 








/larxiv.org/abs/1502.01852.. 


QD 
Q 数据 出 自 论 文 《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification): https: 
© 数据 出 自 论 文 《Deep Residual Learning for Image Recognition): https://arxiv.org/abs/1512.03385. 
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的 概率 最 高 的 类 别 ， 是 否 和 人 工 标记 的 类 别 一 致 ， 如 果 不 一 致 ， 此 时 的 概率 。Top-5 错误 率 是 
指 ， 预 测 输出 的 概率 最 高 的 前 5 个 类 别 当 中 ， 有 没有 和 人 工 标记 的 类 别 一 致 ， 当 5 个 都 不 一 至 
时 的 概率 。 例 如 在 图 片 分 类 任务 下 ， 对 一 张 图 片 进行 预测 ， 输 出 这 张 图 片 分 类 概率 最 高 的 5 个 
类 别 ， 只 要 有 一 个 预测 的 类 别 和 人 工 标注 的 类 别 标记 一 致 ， 就 是 认为 正确 。 当 5 个 都 不 一 致 发 























生 的 概率 就 是 Top-5 错误 率 。 





A 
N 
\ 
\ 
N 
E 
* 67 73 


357 J 








ILSVRC'15 ILSVRC'14 ILSVRC'14 ILSVRC'13 ILSVRC'12 ILSVRC'11 ILSVRC'10 


ResNet GoogleNet VGG AlexNet 
Kl 1-15 














值得 自豪 的 是 ,在 刚刚 过 去 的 ILSVRC 2016 上 ， 中 国学 术 界 和 工业 界 科研 团队 包揽 了 多 项 


二 


冠军 








e CUImage《〈 商 汤 科 技 联合 港 中 文 ): 目标 检测 第 一 。 
e Trimps-Soushen 〈 公 安 部 三 所 ): 目标 定位 第 一 。 
e CUvideo《〈 商 汤 科 技 联合 港 中 文 ): 视频 中 物体 检测 子 项 目 






































第 一 。 


。 NUIST (南京 信息 工程 大 学 )， 视 频 中 的 物体 探测 两 个 子 项 目 第 一 。 














e Hikvvision( 海 康 威 视 )， 场景 分 类 第 一 。 





e SenseCUSceneParsing 〈 商 汤 科 技 联 合 港 中 文 ): MUTA 


1.6.2 Kaggle 








NA 
BD e 

















如 果 说 ILSVRC 企业 参加 的 居多 ， 那 Kaggle 这 个 平台 则 更 多 地 面向 个 人 开发 者 。 图 1-16 


展示 的 是 Kaggle 的 官方 网 站 首页。 











Kaggle 成 立 于 2010 年 , 是 一 个 进行 数据 发 据 、 数 据 分 析 和 预测 苋 赛 的 在 线 平台 。 与 Kaggle 
合作 之 后 ， 一 家 公司 可 以 提供 一 些 数据 ， 进 而 提出 一 个 问题 ，Kaggle 网 站 上 的 计算 机 科学 家 和 











数学 家 也 就 是 现在 的 数据 科学 家 ) 将 领取 任务 ， 提 供 潜在 的 解 




















方案。 最 终 胜出 的 解决 方案 


© 数据 出 自 ILSVRC 2016 比赛 结果 : http://image-net.org/challenges/LSVRC/2016/results。 














@ https:/www.kaggle.com/ 
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可 以 获得 3 万 美元 到 25 万 美元 的 奖励 。 也 就 是 说 ，Kaggle 也 是 一 个 众 包 理 念 ， 利 用 全 世界 的 
人 才 来 解决 一 个 大 问题 。 








Í Bearch kagoe [E] Competitions Datasets Kernels Discussion Jobs 


Your Home for 
Data Science 


Kaggle helps you learn, work, and play 


Create an account or 


Competitions » Datasets > Kernels， 


Climb the worlds most elite Explore and analyzea Run code in the cloud and 
machine learning collection of high quality receive community feedback 


FJ 1-16 











Kaggle 这 个 比赛 非常 适合 学 生 参 加 ， 因 为 一 般 在 校 学 生 可 能 拿 不 到 很 多 数据 。 此 外 ，Kaggle 
不 仅 对 参赛 者 有 算法 能 力 上 的 要 求 ， 而 且 能 锻炼 参赛 者 对 数据 的 “嗅觉 ” 使 参赛 者 从 数据 本 
身 问题 出 发 来 寻求 解决 方案 。 





























1.6.3 “天池 大 数据 竞赛 


“天 池 ” 是 阿里 搭建 的 一 个 大 数据 竞赛 平台 ， 图 1-17 展示 的 是 它 的 官方 网 站 页 面 。 




















[on 























TIANCHI 天 池 


Plan Ahead with Dependable Forecasts 


IJCAI 2017 Competition 








热门 比赛 
EE [D pre Sn 2016 
天 池 指 南 

















(D https://tianchi.shuju.aliyun.com/ 
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这 个 平台 上 一 般 会 有 一 些 穿 衣 搭 配 挑战 、 新 浪 微 博 互 动 预 测 、 用 户 重 复 购买 行为 预测 等 赛 
万 。 平 台 提供 的 “ 赛 题 攻略 ”对 新 手 入 门 有 很 大 的 引领 作用 。 如 果 在 一 些 项 目 上 取得 不 错 的 成 
绩 ， 还 有 丰厚 的 奖金 ， 以 及 进入 阿里 巴巴 的 工作 机 会 。 




















ln 




















1.7 国内 的 人 工 智 能 公司 





H 


近年 来 ,国内 涌现 出 一 批 做 人 工 智 
入 能 方向 。 虽然 不 可 否认 入 工 智 能 领域 
确实 来 临 了 ,确切 地 说 是 科研 成 果 的 井 
速度 


能 的 公司 , 很 多 原 有 的 互联 网 公司 也 开始 试 水 人 工 
还 是 有 一 些 泡 沫 存在 ， 但 是 这 个 技术 领域 的 井喷 点 
喷 点 。 我 们 要 做 的 就 是 加 快 科研 成 果 向 产品 的 转化 

















KS 


o 


国内 的 腾讯 、 阿 里 、 百 度 三 大 公司 在 人 工 智 能 研究 和 商业 化 探索 方面 走 得 最 早 。 腾 讯 优 图 
是 腾讯 的 人 工 智 能 开放 平台 ; 阿里 云 ET 是 阿里 巴巴 的 智能 机 器 人 ;百度 主要 在 无 人 党 驶 汽车 
和 手机 百度 客户 端的 基于 “自然 语言 的 人 机 交互 界面 ”的 “ 度 秘 ”上 发 力 。 这 些 都 是 人 工 智能 
在 产业 界 应 用 的 探索 。 此 外 ， 还 有 搜狗 、 云 从 科技 、 商 汤 科技 、 昆 仑 万 维 、 格 灵 深 瞳 等 公司 ， 
都 在 人 工 智能 领域 纷纷 发 力 。 

下 面 我 们 就 来 介绍 国内 几 家 比较 有 特色 的 做 人 工 智能 的 公司 。 

CD 陌 上 花 科 技 ; 衣 + (dress+)“。 提 供 图 像 识 别 、 图 像 搜 索 、 物 体 追踪 检测 、 图 片 自动 
化 标记 、 图 像 视频 智能 分 析 、 边 看 边 买 、 人 脸 识 别 和 分 析 等 服务 。 其 官方 网 站 的 首页 如 图 1-18 
所 示 。 






















































































n 400-870-9095 











(D http://www.dress-plus.com/ 
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(2) 旷 视 科技 ，Facet++ 。 以 人 脸 识 别 精度 著称 ， 并 且 提 供 人 工 智能 开放 平台 。 目 前 已 经 
和 美 图 秀 秀 、 魔 漫 相机 合作 ， 实 现 美白 、 瘦 脸 、 五 官 美化 等 美 颜 效 果 。 此 外 ， 还 和 支付 宝 合 作 ， 


KRA AMEH “Smile to Pay”。 其 官方 网 站 首页 如 图 1-19 所 示 。 

















时 国信 


Eu A 


/ “maps 新版 Face++ 来 袭 


更 多 能 力 ， 更 强 算法 ， 更 快速 度 
































图 1-19 
(3) 科大 讯 飞 ”。 主 要 提供 语音 识别 解决 方案 ， 以 及 语音 合成 、 语 言 云 (分 词 、 词 性 标注 、 
命名 实体 识别 、 依 存 句法 分 析 、 语 义 角色 标注 等 ) 等 语音 扩展 服务 ， 有 完善 的 SDK 及 多 种 语 
言 实现 的 API。 其 官方 网 站 首页 如 图 1-20 所 示 。 














图 1-20 








(4) 地 平 线 。 柑 入 式 人 工 智 能 的 领导 者 ， 致 力 于 提供 高 性 能 、 低 功 耗 、 低 成 本 、 完 整 开 
放 的 嵌入 式 人 工 智能 解决 方案 。 其 官方 网 站 首页 如 图 1-21 所 示 。 














(D https://www.faceplusplus.com.cn/ 
© http://www.xfyun.cn/ 


Q  http;//www.horizon-robotics.com/index cn.html 
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关于 我 们 。 招募 计划 “联系 我 们 。” English 


嵌入 式 人 工 智能 全 球 领导 者 


智能 驾驶 | 智能 生活 








图 1-21 


1.8 小结 





本 章 主要 介绍 了 人 工 智 能 、 机 器 学 习 、 深 度 学 习 的 关系 ， 以 及 深度 学 习 的 学 习 步 又 ， 分 析 
了 这 个 领域 的 相关 人 群 ， 以 及 这 个 领域 的 重要 赛事 。 然 后 ， 全 面 介 绍 了 TensorFlow 的 作用 、 特 


性 ， 并 介绍 了 国内 做 人 工 智能 的 公司 ， 讲 述 了 目前 在 产业 界 进行 的 探索 ， 和 提供 给 开发 者 的 一 


些 基础 平台 。 
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TensorFlow 环境 的 准备 





本 章 的 主要 任务 就 是 准备 TensorFlow 环境 。 与 安装 其 
他 软件 〈 如 Caffe) 相 比 ，TensorFlow 极 容易 安装 ， 环 境 部 
署 极为 轻松 。 

接 下 来 我 们 先 介绍 下 载 TensorFlow 代码 仓库 ， 然 后 介 
绍 基于 pip 的 安装 方式 、 基 于 Java 的 安装 方式 以 及 使 用 Bazel 
的 源 代 码 编译 安装 方式 。 














2.1 下 载 TensorFlow 1.1.0 


2017 年 5 H, TensorFlow 已 经 开放 到 1.1.0-rc2 版 本 ， 
支持 多 种 操作 系统 。 接 下 来 我 们 就 用 1.1.0 版 本 来 介绍 
TensorFlow 的 环境 准备 过 程 。 

我 们 从 GitHub 代码 仓库 中 将 1.1.0 版 本 的 TensorFlow 源 
代码 下 载 下 来 ， 在 Tags 中 选择 1.1.0 版 本 将 跳 转 到 1.1.0 版 
本 的 代码 仓库 ， 如 图 2-1 所 示 。 

根据 图 2-2 下 载 解压 之 后 即 得 到 源 代 码 , 我 们 将 其 保存 在 
本 地 目录 tensorflow-1.1.0 中 。 












































2.2 基于 pip 的 安装 


pip 是 Python 的 包 管 理工 具 ， 














主要 用 于 PyPP (Python 











(D https://github.com/tensorflow/tensorflow/tree/v1.1.0 
© https://pypi.python.org/pypi 





Tag: v1.1.0-rc2 ~ New pull request 


Switch branches/tags 


IIT | 


Branches Tags 


v^ v1.1.0-rc2 


v1.1.0-rc1 


v1.0.0-rcO 
v1.0.0-alpha 
v0.12.0 


v0.11.0 











图 2-1 
















Find file Clone or download ~ 


Clone with HTTPS © Use SSH 
Use Git or checkout with SVN using the web URL. 


https://github.com/tensorflow/tensorflow.g Ed 








Open in Desktop Download ZIP 
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Packet Index) 上 的 包 。 命令 简洁 方便 ， 包 种 类 丰富 ， 社 区 完善 ， 并 且 拥 有 轻松 升级 /降级 包 的 能 








2.201 MacOS 环境 准备 
Mac OS 是 本 书 所 讲 内 容 依赖 的 环境 ， 机 器 配置 如 图 2-3 所 示 。 








eo GA ss x6 x5 服务 


OS X Yosemite 


版 本 10.10.5 


MacBook Pro (13 英寸 , 2015 年 初期 ) 
处 理 器 2.7 GHz Intel Core i5 

内 存 8 GB 1867 MHz DDR3 

图 形 卡 Intel Iris Graphics 6100 1536 MB 
序列 号 C17Q7DG4FVH3 


系统 报告 … 软件 更 新 … 








TM 和 © 1983-2015 Apple Inc. 保留 一 切 权 利 。 许可 和 保修 


图 2-3 












































首先 需要 依赖 Python 环境 ， 以 及 pip 命令 。 这 在 Mac 和 Linux 系统 中 一 般 都 有 。 这 里 使 用 
的 Python 版 本 是 2.7.12。TensorFlow 1.1.0 版 本 兼容 Python 2 和 Python 3， 读 者 可 以 用 适合 自己 
的 Python 环境 。 











1. 安装 virtualenv 








T 





























virtualenv 是 Python 的 沙 箱 工具 ， 用 于 创建 独立 的 Python 环境 。 我 们 毕竟 是 在 自己 机 器 上 
做 实验 ， 为 了 不 来 回 修改 各 种 环境 变量 ， 这 里 用 virtualenv 为 TensorFlow 创建 一 套 “ 隔 离 ” 的 


Python 运行 环境 。 
首先 ， 用 pip 安装 virtualenv: 
































$ pip install virtualenv --upgrade 


安装 好 后 创建 一 个 工作 目录 ， 这 里 直接 在 home. 下 创建 了 一 个 tensorflow 文件 












































$ virtualenv --system-site-packages -/tensorflow 
然后 进入 该 目录 ， 激 活 沙 箱 : 


$ cd -/tensorflow 
$ source bin/activate 
(tensorflow) $ 


$ 
N 
Hg 


r3 


2. 在 virtualenv 里 安装 TensorFlow 





进入 沙 箱 后 ， 执 行 下 面 的 命令 来 安装 TensorFlow: 














(tensorflow) $ pip install tensorflow--1.1.0 


默认 安装 所 需 的 依赖 ， 直 至 安装 成 功 。 











3. 运行 TensorFlow 


照 着 官方 文档 录入 一 个 简单 例子 : 








(tensorflow) $ python 

Python 2.7.12 (default, Oct 11 2016, 05:16:02) 

[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> 

>>> import tensorflow as tf 

>>> hello = tf.constant('Hello,TensorFlow!') 

>>> sess = tf.Session() 

>>> print sess.run (hello) 

Hello, TensorFlow! 


恭喜 ，TensorFlow 环境 已 经 安装 成 功 了 。 





























bin/activate 命令 来 激活 沙 箱 。 


2.2.2 Ubuntu/Linux 环境 准备 
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注意 ， 每 次 需要 运行 TensorFlow 程序 时 ， 都 需要 进入 tensorflow 目录 ， 然 后 执行 source 


使 用 Ubuntu/Linux 的 读者 可 以 照 着 Mac OS 的 环境 准备 ， 先 安装 virtualenv 的 沙 盒 环 境 ， 


























再 用 pip 安装 TensorFlow 软件 包 。 











TensorFlow 的 Ubuntu/Linux 安装 分 为 CPU 版 本 和 GPU 版 本 ， 下 面 来 分 别 介 绍 。 














(1) BRIFF CPU 的 版 本 ， 直 接 安 装 如 下 : 
$ pip install tensorflow--1.1.0 


(2) 安装 支持 GPU 的 版 本 的 前 提 是 已 经 安装 了 CUDA SDK， 直 接 使 用 下 面 的 























$ pip install tensorflow-gpu--1.1.0 


2.2.3 Windows 环境 准备 





AA 
MeS: 


TensorFlow 1.1.0 版 本 支持 Windows 7, Windows 10 和 Server 2016。 因 为 使 用 Windows 
PowerShell 代替 CMD， 所 以 下 面 的 命令 均 在 Powershell 下 执行 。 这 里 使 用 的 是 Windows 10 系 
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统 ， 使 用 微软 小 娜 呼唤 出 PowerShell， 如 图 2-4 所 示 。 


EI Windows PowerShell 3 口 qd 
] T 














Corporationo 保留 所 有 权利 


图 2-4 


1. 安装 Python 


TensorFlow 在 Windows 上 只 支持 64 位 Python 3.5.x， 可 以 通过 Python Releases for Windows" 
或 Python 3.5 from Anaconda 下 载 并 安装 Python 3.5.2. (注意 选择 正确 的 操作 系统 )。 下 载 后 ， 安 
装 界面 如 图 2-5 所 示 ， 注 意 勾 选 “Add Python 3.5 to PATH”. 














A; Python 3.5.2 (64-bit) Setup lej- x 


Install Python 3.5.2 (64-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


9 install Now 
CNUsersViaxuanVAppDataM.ocal Programs Python Python35 
Includes IDLE, pip and documentation 


Creates shortcuts and file associations 


— Customize installation 


Choose location and features 
Py [7] Install launcher for all users (recommended) 
wind WS 回 Add Python 3.5 to PATH Cancel 


图 2-5 









































(D https://www.python.org/downloads/windows/ 


^ 


B 2 


I£É 
IE 


选择 Customize installation 〈 自 定义 安装 )， 进 入 下 一 步 。 如 
包 自 带 pip 命令 。 
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图 2-6 所 示 ， 可 以 看 出 Python 





|2 Python 3.5.2 (64-bit) Setup 


Optional Features 





Ed Documentation] 








the Pytho 


M pip 
installs pip, which can 
a! E] td/tk and IDLE 
nstalls tkinter and t 








ter and the IDLE development 





























k- 





[v] Python test suite 
nstalls the standard library test suite 
EZ py launcher 7] for all users (requires elevation) 
nstalls the global 'py' launcher to make it easier to start Python 
windows Back Next Cancel 





























图 2-6 

















然后 ， 
安装 成 功 。 在 “开始 ” 


Wi 


TRPE P 











2-7 
TensorFlow 的 Windows 安装 也 分 为 CPU 版 本 和 GPU 版 本 ， 


(1) CPU 版 本 安装 。 在 Powershell 中 执行 如 下 命令 ， 默 认 安 
关 依 赖 。 





C:\> pip install tensorflow--1.1.0 


安装 完成 后 如 图 2-8 所 示 。 


IPS C: Ps\ijiaxuan@1> pip install tensorflow==1{-1.-9rc2 
Collecting tensorf lov 





了 到 PowerShell 中 输入 python， 看 到 进入 终端 的 命令 提示 则 代表 python 
>“ 所 有 程序 ”下 也 可 以 找到 Python 终端 。 安 装 成 功 后 的 界 | 





| 如 图 2-7 所 示 。 














下 面 来 分 别 介绍 。 


装 TensorFlow 1.1.0 版 本 及 相 





| | | EUNDO 


Requirement already 
kages <from tensorflow 


numpy>=1.11.0 in c:\u 
1.1.0rc25 


lijiaxuanBiNappdataNlocalNprograns Npython Npython35 NlibNsite-pac 


Requirement already sati: 


ied: wheel)=8.26 in c:Nusers\lijiaxuanglvappdataN\local\programs\pythonNpython35\1ihbvsite-packa 


Ürc25 
ied: 


ges (from tensorflo d 
Requirement already sati: 
jackages (from tensorf low 
Collecting verkzeug?-8.11. 
Downloading 
PLE | 
Requirement already sati: 
[ges (from tensorflo 1.1.80rc25 
Requirement already satisfie 
les (from protobuf >=3.2.8->tenso 
Installing collected package 
Found existing installatio 


i8 «f 


protobuf >=3.2.0 in c:\users\lijiaxuan@l\appdata\local\programs \python \python35\1ib\site-pl 


1.1.80rc25 


-1.80rc25 
hl 


rom te 


axuanB1 NappdataNlocalNprograns Npython Npython35 NlibNsite-packa 


i 317kB 489kB/s 


setuptools in c:\users\lijiaxuan@il\appdata\local \programs \python \python35\1ib\site-packag| 
rflou--1.1.0rc25 
tensorflow 


Uninstalling tensorflow-i.08.1: 


Successfully uninstalled tensorflou-i.08.1 
Successfully installed tensorflow-1-1-9rc2 werkzeug-B-12 .1 


图 2-8 
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(2) 


© 

















GPU RARR. MRA IDAE GPU 版 本 ， 请 先 安 装 如 下 两 个 驱动 : CUDA 





和 CuDNN”( 后 者 需要 注册 NVIDIA 用 户 ， 并 加 入 CuDNN 开发 组 ， 然 后 填 若 干 问卷 ， 才 可 以 
下 载 )。 选 择 下 载 版 本 时 要 注意 与 CUDA 版 本 匹配 。 解压 后 保存 至 CUDA 的 安装 目录 下 。 然后 ， 
安装 GPU 版 本 ， 安 装 命令 如 下 : 





CN 


2. 























> pip install tensorflow-gpu--1.1.0 


运行 TensorFlow 











在 微软 小 娜 中 ， 搜 索 “python”， 直接 模糊 匹配 ， 调 出 命令 窗口 ， 输 入 测试 代码 : 


22» 
22» 




















import tensorflow as tf 
sess = tf.Session() 


>>>a = tf.constant (10) 
>>>b = tf.constant (22) 
»»»print(sess.run(a + b)) 


32 

















正确 输出 结果 32， 安 装 完毕 。 











23 基于 Java 的 安装 


基于 Java 的 方式 安装 ， 可 以 参照 TensorFlow 官方 GitHub 的 安装 方法 ”。 


我 人 





H 


] 需 要 下 载 JAR (Java ARchive) libtensorflow-1.1.0-rc2.jar 和 运行 TensorFlow 需要 的 本 


地 库 。 这 些 都 可 以 直接 从 官方 GitHub 上 下 载 ， 如 图 2-9 所 示 。 














1. Download the Java archive (JAR): libtensorflow.jar (optionally, the Java sources: libtensorflow-src.jar). 


2. Download the native library. GPU-enabled versions required CUDA 8 and cuDNN 5.1. For other versions, the native 
library will need to be built from source (see below). 


o Linux: CPU-only, GPU-enabled 
o OS X: CPU-only GPU-enabled 











图 2-9 














这 里 


仍然 用 Mac OS X 系统 ， 下 载 后 的 文件 如 下 : 





libtensorflow-1.1.0-rc2.jar 
libtensorflow jni-cpu-darwin-x86 64-1.1.0-rc2.tar.gz 





(D https://developer.nvidia.com/cuda-downloads 


© https://developer.nvidia.com/cudnn 


© https://github.com/tensorflow/tensorflow/tree/master/tensorflow/java 
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对 libtensorflow jni-cpu-darwin-x86 64-1.1.0-rc2.targz 进行 解压 ， 解 压 到 当前 目录 jni。 








tar zxvf libtensorflow jni-cpu-darwin-x86 64-1.1.0-rc2.tar.gz -C ./jni 








这 样 就 完成 了 TensorFlow 的 Java 安装 。 下 面 我 们 写 一 个 例子 来 测试 一 下 ， 看 能 否 正 确 输 
出 TensorFlow 的 版 本 。 将 下 面 代码 写 入 文件 ， 命 名 为 MyClass.java。 























import org.tensorflow.TensorFlow; 


public class MyClass { 
public static void main(String[] args) ( 


System.out.println("I'm using TensorFlow version: " + TensorFlow.version()); 
} 


然后 进行 编译 : 


javac -cp libtensorflow-1.1.0-rc2.jar MyClass.java 








最 后 执行 ， 成 功 输出 所 采用 的 TensorFlow 版 本 ， 如 图 2-10 所 示 。 








(tf) java -cp libtensorflow-1.1.0-rc2.jar:. -Djava.library.path=./jni MyClass 
I'm using TensorFlow version: 1.1.0-rc2 








2.4 ”从 源 代码 安装 


从 源 代码 编译 安装 ， 需 要 使 用 Bazel 编译 工具 。 我 们 先 安装 Bazel 工具 。 在 需要 依赖 的 JDK 
8 配 好 之 后 ， 在 Mac 笔记 本 上 直接 执行 下 面 命 令 ， 安 装 版 本 是 0.4.4: 






















































































brew install bazel 




















其 他 操作 系统 (如 Ubuntu). 的 计算 机 对 Bazel 的 安装 ， 可 以 采用 apt-get 等 方式 。 


先进 入 tensorflow-1.1.0 的 源 代码 目录 ， 运 行 ./configure 脚本 会 出 现 所 采用 的 Python 路径、 
是 否 用 HDFS、 是 否 用 Google Cloud Platform 等 选项 ， 读 者 可 以 根据 自己 的 需要 进行 配置 ， 或 
者 直接 按 “ 回 车 ”采用 默认 配置 。 


下 面 我 们 演示 使 用 CPU 版 本 的 编译 。 有 具体 如 下 ; 






















































































- tensorflow-1.1.0 ./configure 
Please specify the location of python. [Default is /usr/local/bin/python]: 
Please specify optimization flags to use during compilation [Default is -march-native]: 


Do you wish to use jemalloc as the malloc implementation? (Linux only) [Y/n] 
jemalloc enabled on Linux 


Do you wish to build TensorFlow with Google Cloud Platform support? [y/N] 
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No Google Cloud Platform support will be enabled for TensorFlow 
Do you wish to build TensorFlow with Hadoop File System support? [y/N] 
No Hadoop File System support will be enabled for TensorFlow 
Do you wish to build TensorFlow with the XLA just-in-time compiler (experimental)? [y/N] 
No XLA support will be enabled for TensorFlow 
Found possible Python library paths: 
/usr/local/Cellar/python/2.7.12 2/Frameworks/Python.framework/Versions/2.7/lib 
/python2.7/site-packages 


/Library/Python/2.7/site-packages 
Please input the desired Python library path to use. Default is [/usr/local/Cellar/ 


python/2.7.12 2/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages] 


Using python library path: /usr/local/Cellar/python/2.7.12 2/Frameworks/Python. 
framework/Versions/2.7/lib/python2.7/site-packages 

Do you wish to build TensorFlow with OpenCL support? [y/N] 

No OpenCL support will be enabled for TensorFlow 

Do you wish to build TensorFlow with CUDA support? [y/N] 

No CUDA support will be enabled for TensorFlow 

Configuration finished 











随后 ， 我 们 执行 bazel 编译 命令 ， 因 为 编译 时 需要 耗费 大 量 的 内 存 ， 加 入 --local_resources 
2048,4,1.0 来 限制 内 存 大 小 。 具 体 如 下 : 














bazel build --local resources 2048,4,1.0 -c opt //tensorflow/tools/pip package:build 


pip package 
bazel-bin/tensorflow/tools/pip package/build pip package /tmp/tensorflow pkg 





然后 进入 /tmp/tensorflow_pkg， 可 以 看 到 生成 的 文件 tensorflow-1.1.0-cp27-cp27m-macosx - 
10_12_intel.whl， 直 接 安 装 如 下 : 


pip install /tmp/tensorflow pkg/tensorflow-1.1.0-cp27-cp27m-macosx 10 12 intel.whl 

































































使 用 GPU 版 本 的 编译 需要 配置 中 选择 使 用 CUDA， 然 后 填写 对 应 的 CUDA SDK 版 本 等 ， 
其 他 步骤 均 相同 。 





2.5 ”依赖 的 其 他 模块 


TensorFlow 在 运行 中 需要 做 一 些 矩 阵 运 算 , 时 常会 用 到 一 些 第 三 方 模块 , 此 外 , 在 处 理 音 频 、 
习 然 语 言 时 需要 也 要 用 到 一 些 模块 ， 建 议 一 并 安装 好 。 本 书 “ 实 战 篇 ”中 会 大 量 用 到 这 些 扩展 。 


下 面 我 们 就 来 简单 介绍 TensorFlow 依赖 的 一 些 模块 。 































































































2.5.1 numpy 


























numpy 是 用 来 存储 和 处 理 大 型 矩阵 的 科学 计算 包 ， 比 Python 自身 的 误 套 列表 结构 (nested 
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list structure) 要 高 效 的 多 。 它 包括 : 
e 一 个 强大 的 N 维 数组 对 象 Array; 
e 比较 成 熟 的 函数 库 ; 
e. 用 于 整合 C/C++ 和 Fortran 代码 的 工具 包 ，; 
e 实用 的 线性 代数 、 傅 里 叶 变 换 和 随机 数 生 成 函数 。 
numpy 模块 的 安装 方法 如 下 : 



































pip install numpy --upgrade 


2.5.2 matplotlib 














matplotlib 是 Python 最 著名 的 绘图 库 ， 它 提供 了 一 整套 和 MATLAB 相似 的 命令 API， 十 分 
适合 交互 式 地 进行 制图 。 用 它 可 以 画 出 美丽 的 线 图 、 散 点 图 、 等 高 线 图 、 条 形 图 、 柱 状 图 、3D 
图 等 ， 而 且 还 可 以 方便 地 将 它 作 为 绘图 控件 ， 和 嵌入 GUI 应 用 程序 中 。 在 后 面 的 实例 中 ， 需 要 可 
视 化 地 展现 训练 结果 或 者 中 间 的 特征 映射 ， 就 很 方便 。 

matplotlib 模块 的 安装 方法 如 下 : 
































































































































pip install matplotlib --upgrade 


2.5.3 jupyter 











jupyter notebook 是 Ipython 的 升级 版 ， 能 够 在 浏览 器 中 创建 和 共享 代码 、 方 程 、 说 明文 档 。 
界面 相当 友好 ， 功 能 也 很 强大 。 其 实 ，jupyter 实际 就 是 一 个 基于 Tornado 框架 的 Web 应 用 ， 使 
用 MQ 进行 消息 管理 。 
jupyter 模块 的 安装 方法 如 下 : 









































pip install jupyter --upgrade 





打开 jupyter notebook: 


jupyter notebook 


出 现 如 下 显示 : 





[W 06:02:13.434 NotebookApp] Widgets are unavailable. Please install widgetsnbextension 
or ipywidgets 4.0 

[I 06:02:13.454 NotebookApp] Serving notebooks from local directory: /Users/baidu/ 
Downloads/tensorflow-0.12/tensorflow 

[I 06:02:13.454 NotebookApp] 0 active kernels 

[I 06:02:13.454 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/ 
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[I 06:02:13.454 NotebookApp] Use Control-C to stop this server and shut down all 


kernels (twice to skip confirmation). 











浏览 器 自动 打开 ， 启 动 成 功 ， 界 面 如 图 2-11 所 示 。 其 中 ， 在 tensorflow-1.1.0/tensorflow/ 
examples/udacity 下 有 许多 扩展 名 为 .ipynb 的 示例 文件 ， 读 者 可 以 自行 在 浏览 器 中 打开 和 学 习 。 























Z Jupyter 


Files Running Clusters 
Select items to perform actions on them. 
-* 

De 

D cc 

C3 contrib 

D core 

D examples 

C3 g3doc 

O go 


D java 





Upload New» C 











2.5.4 scikit-image 














scikit-image 有 一 组 图 像 处 理 的 算法 , 可 以 使 过 滤 一 张 图 片 变 得 很 简单 ， 





























像 的 预 处 理 。 
scikit-image 模块 的 安装 方法 如 下 : 








t 


pip install scikit-image --upgrade 


2.5.5 librosa 


























librosa 是 用 Python 进行 音频 特征 提取 的 第 三 方 库 ， 有 很 多 方式 可 以 提 
librosa 模块 的 安装 如 下 : 














pip install librosa --upgrade 


2.5.6 nltk 
nltk 模块 中 包含 着 大 量 的 语料库 , 可 以 很 方便 地 完成 很 多 自然 语言 处 班 























DS 


非常 适合 用 于 对 




















取 音 频 特 征 。 





的 任务 , 包括 分 词 、 











词性 标注 、 命 名 实体 识别 (NER) 及 句法 分 析 。 





(D http://scikit-image.org/ 
© http://www.nltk.org/ 
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nltk 的 安装 方法 : 


pip install nltk --upgrade 




















安装 完成 后 ， 需要 导入 nltk T. |f, 下 载 nltk 数据 源 ， WT: 








>>> import nltk 
>>> nltk.download() 


2.5.7 keras 























Keras 是 第 一 个 被 添加 到 TensorFlow 核心 中 的 高 级 别 框架 ， 成 为 Tensorflow 的 默认 API. 
第 7 章 中 会 详细 讲解 Keras 的 使 用 。 


keras 模块 的 安装 方法 如 下 : 











pip install keras --upgrade 


2.5.8 tflearn 








TFLearn 是 另 一 个 支持 TensorFlow 的 第 三 方 框架 
tflearn 模块 的 安装 方法 如 下 : 




















架 ， 第 7 章 中 会 详细 讲解 TFLearn 的 使 用 。 

















pip install git-*https://github.com/tflearn/tflearn.git 


2.6 小 结 











本 章 介 绍 了 TensorFlow 环境 的 准备 ， 分 别 讲解 了 使 用 pip 命令 、Java JAR 文件 、 用 Bazel 


工具 对 源 代码 进行 编译 这 3 种 安装 方式 ， 以 及 在 pip 安装 方式 下 , 在 Mac、Ubuntu/Linux、Windows 
系统 上 如 何 安装 CPU 版 本 和 GPU 版 本 的 TensorFlow。 



















































































最 后 ， 讲 了 一 些 常用 扩展 的 作用 和 安装 ， 这 些 扩展 在 本 书 的 “实战 篇 ”中 会 用 到 。 
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可 视 化 TensorFlow 


z| 














J] 视 化 是 认识 程序 的 最 直观 方式 。 在 做 数据 分 析 时 ， 可 视 化 一 般 是 数据 分 析 最 后 一 步 的 结 


果 呈 现 。 把 可 视 化 放 到 “基础 篇 ” 是 为 了 让 读者 在 安装 完成 后 ， 就 能 先 看 一 下 TensorFlow 到 
底 有 哪些 功能 ， 直 观感 受 一 下 深度 学 习 的 学 习 成 果 ， 让 学 习 目 标 一 目 了 然 。 





3.1 PlayGround 

















PlayGround 是 一 个 用 于 教学 目的 的 简单 神经 网 络 的 在 线 演示 、 实 验 的 图 形 化 平台 , 非常 强 














大 地 可 视 化 了 神经 
个 感性 的 认识 。 



































网 络 的 训练 过 程 。 使 用 它 可 以 在 浏览 器 里 训练 神经 网 络 ， 对 Tensorflow 有 一 





PlayGround 界面 从 左 到 右 由 数据 (DATA), 特征 (FEATURES)、 神 经 网 络 的 隐藏 层 CHIDDEN 











LAYERS) 和 层 中 的 连接 线 和 

















输出 COPUPUTO 几 个 部 分 组 成 ， 如 图 3-1 所 示 。 


Tinker With a Neural Network Right Here in Your Browser. 


Dont Worry, You Cant Break It. We Promise 














5 lerations Learning ra Activation Regularization Regularization raie Problem type 
» 
000,000 0.03 = Tamh = — None - 0 = Classification ~ 
DATA FEATURES + — 2 HIDDEN LAYERS OUTPUT 
Which dataset do Which prope Test loss 0.522 
you want to do you Tra ss 0.526 
toyou, m e DE aining lo: 
za 4 reurons 

s 

B m 

TE 
Noise SS A 
: B 
Batch 0 This is the cutp. 














(D http://playground.tensorflow.org/ 
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3.11 数据 


在 二 维 
表 正 值 ， 浅 色 ( 





























了 面 内 ， 点 被 标记 成 两 种 颜色 。 深 色 《〈 电 脑 屏 幕 显示 为 蓝 色 ) 代 
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DATA 


Which dataset do 
you want to use? 























c 





的 两 类 ， 如 图 3-2 所 示 。 








网 站 提供 了 4 种 不 同形 态 的 数据 ， 分 别 是 圆 形 、 









































EJE 


图 3-3 











PlayGournd 中 的 数据 配置 非常 灵活 ， 可 以 调整 噪声 (noise) 的 大 小 。 


为 0、25 和 50 时 的 数据 分 布 。 
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PlayGournd 中 也 可 以 改变 训练 数据 和 测试 数据 的 比例 (ratio)。 图 
测试 数据 比例 为 1:9 和 9:1 时 的 情况 。 








3J- 





日 脑 屏幕 显示 为 黄色 ) 代表 负 值 。 这 两 种 颜色 表示 想 要 区 分 








异 或 、 高 斯 和 螺旋 ， 如 
图 3-3 所 示 。 神 经 网 络 会 根据 所 给 的 数据 进行 训练 ， 再 分 类 规律 相同 的 点 。 





3-2 





图 3-4 展示 的 是 噪声 
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5 展示 的 是 训练 数据 和 
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此 外 ，PlayGournd 中 还 可 以 调整 输入 的 每 批 (batch) 数据 的 多 少 ， 
可 以 是 1~30， 就 是 说 每 批 进入 神经 网 络 数据 的 点 可 以 1 一 30 








调整 范围 
个 ;如 











uH 


3-6 所 示 。 


3.1.2 ”特征 


接 下 来 我 们 需要 做 特征 提取 (feature extraction), 
































两 个 特征 还 可 以 衍 
如 图 


X, 两 个 特征 ， 由 这 
XX sin(Xj), sin(X;)55, 








3-7 所 示 。 














Batch size: 15 
——e 








每 一 个 点 都 有 X, 和 
生出 许多 其 他 特征 ， 如 XX, XX. 


从 颜色 上 》 X 














左边 浅 色 《电脑 屏幕 显示 为 黄色 ) E, AA 

















i 屏幕 显示 为 蓝 1 


KE h 





6) ÆE, Xi 表示 此 点 的 横 坐 标 值 。 同 理 ， 








X, | 


上 边 深 色 是 





正 ， 下 边 浅 色 是 负 


> X 表示 此 点 的 纵 坐标 值 。XXY IE ERA 





标的 “抛物 











A" fud. XXX 是 关于 纵 坐标 的 “抛物 线 ” 信 息 





U^ XX, 是 * XX | 








抛物 面 





1” 











的 信息 ，sin(X1) 是 关于 横 坐 标的 “正弦 函数 ”信息 ，sin(%) 是 关于 纵 坐 标的 





“正弦 函数 ”信息 。 





特征 , 1H] 出 一 








3.1.3 ”隐藏 层 


我 们 可 以 设置 隐藏 
所 示 。 





ze, 





因此 ， 我 们 要 学 习 的 分 类 器 〈classifier) 就 是 
条 或 者 多 条 线 ， uEdeM E eed 











上 述 一 种 或 者 多 种 
2 














以 及 每 个 隐藏 层 神经 元 的 数量 ， 如 图 3-8 











十 一 


4 neurons 





ap 2 HIDDEN LAYERS 


+ 一 


2 neurons 


The outputs are 
mixed with 
varying weights, 
shown by the 
thickness of the 











隐藏 层 之 间 的 连接 线 表 示 权 重 





图 3-8 


图 





3-6 





FEATURES 


Which properties 
do you want to 
feed in? 




















(weight), 深 色 ( 蓝 1 


色 ) 表示 用 神经 元 的 负 输 出 。 连 接线 的 粗细 和 深浅 表示 权重 的 绝对 值 大 小 。 











色 ) 表示 用 神经 元 的 原 





nimi, RE GR 
鼠标 放 在 线 上 可 以 
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看 到 具体 值 ， 也 可 以 修改 值 ， 如 图 3-9 所 示 。 


X 
1 Ip Click anywhere to edit. F 






































Weight is|-0.41| c. 
Bea 
2 NS 
Sd 
图 3-9 











修改 值 时 ， 同 时 要 考虑 激活 函数 ， 例 如 ， 当 换 成 Sigmoid 时 ， 会 发 现 没 有 负 向 的 黄色 区 域 
了 ， 因 为 Sigmoid 的 值 域 是 (0,1)， 如 图 3-10 所 示 。 














lterations Learning rate Activation 
000,000 0.03 ~ Sigmoid 
FEATURES + — 2 HIDDEN 


Which properties 
do you want to 
feed in? up us 


4 neurons 
































下 一 层 神经 网 络 的 神经 元 会 对 这 一 层 的 输出 再 进行 组 合 。 组 合 时 ， 根 据 上 一 次 预测 的 准确 
性 ， 我 们 会 通过 反问 传播 给 每 个 组 合 不 同 的 权重 。 组 合 时 连接 线 的 粗细 和 深浅 会 发 生变 化 ， 连 
接线 的 颜色 越 深 越 粗 ， 表 示 权 重 越 大 。 











Me 











3.1.44 输出 





























输出 的 目的 是 使 黄色 点 都 归于 黄色 背景 ， 蓝 色 点 都 归于 蓝 色 背景 ， 背 景 颜色 的 深浅 代表 可 
能 性 的 强 弱 。 











我 们 选 定 螺旋 形 数据 ，7 个 特征 全 部 输入 ， 进 行 试 验 。 选 择 只 有 3 个 隐藏 层 时 ， 第 一 个 隐 
藏 层 设置 8 个 神经 元 ， 第 二 个 隐藏 层 设 置 4 个 神经 元 ， 第 三 个 隐藏 层 设置 2 个 神经 元 。 训 练 大 
概 2 分 钟 ， 测 试 损 失 Ctestloss) 和 训练 损失 (training loss) 就 不 再 下 降 了 。 训 练 完成 时 可 以 看 
出 ， 我 们 的 神经 网 络 已 经 完美 地 分 离 出 了 柳 色 点 和 蓝 色 点 ， 如 图 3-11 所 示 。 
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/ The outputs are 

mixed with 

varying weights, 
Colors shows 

shown by the 

thickness of the data, neuron and — — 

lines. weight values. — ' uj 







LJ Showtestdata — [7] Discretize output 











图 3-11 











假设 我 们 只 输入 最 基本 的 前 4 个 特征 ， 给 足 多 个 隐藏 层 ， 看 看 神经 网 络 的 表现 。 假 设 加 入 
6 个 隐藏 屋 ， 前 4 层 每 层 有 8 个 神经 元 ， 第 五 层 有 6 个 神经 元 ， 第 六 层 有 2 个 神经 元 。 结 果 如 
图 3-12 所 示 。 











8 neurons 8 neurons 8 neurons 8 neurons 6 neurons 2 neurons 


XX, 
172 
sin(X.) 
Colors shows 
data, neuron and , 
Sin(X,) weight values. d g 3 


口 Showtest data — [7] Discretize output 











我 们 发 现 ， 通 过 增加 神经 元 的 个 数 和 神经 网 络 的 隐藏 导数， 即使 没有 输入 许多 特征 ， 神 经 
络 也 能 正确 地 分 类 。 但 是 ， 假 如 我 们 要 分 类 的 物体 是 猫 猫 狗 狗 的 图 片 ， 而 不 是 肉眼 能 够 直接 
具 别 出 特征 的 黄 点 和 蓝 点 呢 ? 这 时 候 怎样 去 提取 那些 真正 有 效 的 特征 呢 ? 

有 了 神经 网 络 ， 我 们 的 系统 自己 就 能 学 习 到 哪些 特征 是 有 效 的 、 哪 些 是 无 效 的 ， 通 过 自己 
学 习 的 这 些 特 征 ， 就 可 以 做 到 上 自己 分 类 ， 这 就 大 大 提高 了 我 们 解决 语音 、 图 像 这 种 复杂 抽象 问 
题 的 能 力 。 


可 








< 
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3.2 ”TensorBoard 





TensorBoard 是 TensorFlow 上 自 带 的 一 个 强大 的 可 视 化 工具 ， 也 是 一 个 Web 应 用 程序 套件 。 
TensorBoard 目前 支持 7 种 可 视 化 , 即 SCALARS, IMAGES, AUDIO, GRAPHS, DISTRIBUTIONS, 
HISTOGRAMS 和 EMBEDDINGS。 这 ?7 种 可 视 化 的 主要 功能 如 下 。 


e SCALARS: 展示 训练 过 程 中 的 准确 率 、 损 失 值 、 权 重 / 偏 置 的 变化 情况 。 

e IMAGES: 展示 训练 过 程 中 记录 的 图 像 。 

e AUDIO: 展示 训练 过 程 中 记录 的 音频 。 

e GRAPHS: 展示 模型 的 数据 流 图 ， 以 及 训练 在 各 个 设备 上 消耗 的 内 存 和 时 间 。 

e DISTRIBUTIONS: 展示 训练 过 程 中 记录 的 数据 的 分 布 图 。 

e HISTOGRAMS: 展示 训练 过 程 中 记录 的 数据 的 柱状 图 。 

e EMBEDDINGS: 展示 词 向 量 (如 Word2vec) 后 的 投影 分 布 。 

TensorBoard 通过 运行 一 个 本 地 服务 器 ， 来 监听 6006 端口 。 在 浏览 器 发 出 请 求 时 ， 分 析 训 
练 时 记录 的 数据 , 绘制 训练 过 程 中 的 图 像 。 在 9.3 节 的 MNIST 示例 中 , 会 逐一 讲解 TensorBoard 
的 图 像 绘制 ， 让 读者 更 好 地 了 解 训练 的 过 程 中 发 生 了 什么 。 本 节 我 们 就 先 看 一 下 TensorBoard 
能 够 绘制 出 哪些 东西 。 

TensorBoard 的 可 视 化 界面 如 图 3-13 所 示 。 

















































































































TensorBoard SCALARS IMAGES AUDIO GRAPHS DISTRIBUTIONS HISTOGRAMS EMBEDDINGS 





Write a regex to create a tag group x accuracy_1 








Split on underscores cross entropy 1 

















Data download links dropout 
Tooltip sorting method: default — layer 
layer2 
Smoothing 
bd 0.6 


Horizontal Axis 
EB o 0 


Runs 
Write a regex to filter runs 
O test 0 


TOGGLE ALL RUNS 





/Amp/tensorflow/mnist/logs/mnist with. 
immaries 

















© 本 节 内 容 参考 https:/Wgithub.comytensorflow/tensorflow/blob/mastertensorflow/tensorboard/README.md。 


从 图 3-13 中 可 以 看 到 ,在 标题 处 有 上 述 几 个 可 视 化 


些 可 视 化 面板 的 功能 。 























B 
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apo 下 T 























这 里 ， 我 们 运行 手写 数字 识别 的 入 门 例子 ， 如 下 : 





python tensorflow-1.1.0/tensorflow/examples/tutorials/mnist/mnist with summaries.py 





然后 ， 打 开 TensorBoard 面板 : 

















tensorboard --logdir-/tmp/mnist/logs/mnist with summaries 


这 时 ， 输 出 : 


Starting TensorBoard 39 on port 6006 


(You can navigate to http://192.168.0.101:6006) 


我 们 就 可 以 在 浏览 器 中 打开 http://192.168.0.101:6006， 查 看 本 





3.2.1 SCALARS 面板 





SCALARS 






































板 的 各 项 功能 。 


看 板 的 左边 是 一 些 选 项 ， 包 括 Split on undercores (用 下 划 线 分 开 显 示 )、Data 


downloadlinks〔 数 据 下 载 链 接 )、Smoothing (图 像 的 曲线 平滑 程度 ) 以 及 Horizontal Axis GKF 














AD 的 表示 ， 其 中 水 平 轴 


















































SCR R R RUE ZEE 








测试 集 的 相对 值 ，WALL 代表 按照 时 间 )， 如 图 
I GARAŽE 1000 次 )。 








3-14 左边 所 示 。 图 3-14 右边 
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的 表示 分 3 BR (STEP RRIKA RELATIVE 代表 按照 训练 集 和 
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] Split on underscores 


[_] Data download links 


Smoothing 
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Runs 


Write a regex to filter runs 


Tooltip sorting method: default 








Q test 
O train 





accuracy 1 


accuracy. 1 


)0 200.0 400.0 600.0 800.0 1.000k 


cross entropy 1 





cross entropy 1 











1 了 准确 率 和 交 
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SCALARS 面板 中 还 绘制 了 每 一 层 的 偏 置 (biases) 和 权重 《weights) 的 变化 曲线 ， 包 括 每 



































vrt A d | = E3 ^ | NIA "Hh EZ VA ay rem 
次 迭代 中 的 最 大 值 、 最 小 值 、 平 均值 和 标准 差 ， 如 图 3-15 所 示 。 
layer1 
layer1/biases/summaries/max layer1/biases/summaries/mean 
0.101 
0.160 0.101 
0.140 9t 
0.100 
0.120 
0.0998 
0.100 0.0994 
0.000 200.0 400.0 600.0 800.0 1.000k 0.000 200.0 400.0 600.0 800.0 1.000k 
"' Em rI ES 
"20 三 u 三 
layer1/biases/summaries/min layer1/biases/summaries/stddev. 1 
0.100 
0.0160 
0.0900 
0.0800 0.0720 
0.0700 8.000e-3 
0.0600 4.000e-3 
0.0500 0.00 
0.000 200.0 400.0 600.0 800.0 1.000k 0.000 3000 6000 9000 
Pu - r^ mm 
LE = ka = 
图 3-15 





3.2.2 IMAGES 面板 














图 3-16 展示 了 训练 数据 集 和 测试 数据 集 经 过 预 处 理 后 图 片 的 样子 。 











te a regex to create a tag gro x input reshape 


| | Split on underscores input reshape/input/image/O input reshape/input/image/O 


led Apr 05 2017 22:46:16 GMT*0800 (+E step 999 (Wed Apr 05 2017 22:46:17 GMT+0800 (中 | 
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3.2.3 AUDIO 面板 


























ud 


AUDIO 面板 是 展示 训练 过 程 中 处 

















里 的 音频 数据 。 这 里 暂时 没有 找到 合适 的 例子 ， 读 者 了 解 














即 可 。 


3.2.4 GRAPHS 面板 

















GRAPHS 面板 是 对 理解 神经 网 络 结 
图 3-17 所 示 界 面 中 节点 之 间 的 连 线 即 为 数据 流 ， 连 线 越 粗 ， 说 明 在 两 个 节点 之 间 流 动 的 张 量 


























(tensor) 越 多 。 








4 构 最 有 帮助 的 一 个 面板 , 它 直 观 地 展示 了 数据 流 图 。 
































[4 Fit to screen Main Graph 
$ — Download PNG 
Run train ten 
(1) 
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runs (10) 
Upload Choose File accuracy :| cross. entropy 
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Color Structure 
© i layer2 
O Device | 
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Graph (* = expandable) 

Namespace* 

OpNod ~ 

genea input_reshape layer1 
Unconnected series* 
Connected series* 
) Constant 

m Summary input 

Dataflow edge 

Control dependency edge 

Reference edge 

图 3-17 





在 GRAPHS 面板 的 左 侧 ， 可 以 选择 迭代 步骤 。 可 以 用 不 同 Color (颜色 ) 来 表示 不 同 的 
Structure (整个 数据 流 图 的 结构 )， 或 者 用 不 同 Coler 来 表示 不 同 Device (设备 )。 例 如 ， 当 使 





um 




















多 个 GPU 时 ， 各 个 节点 分 别 使 用 的 GPU 不 同 。 


当 我 们 选择 特定 的 某 次 迭代 《〈 如 第 899 次 ) 时 ， 可 以 显示 出 各 个 节点 的 Compute time Ci 


算 时 间 ) 以 及 Memory 〈 内 存 消 耗 )， 如 


图 3-18 所 示 。 
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$ Download PNG 


Run train ~ 
() 


ta 


Session step899  - 
runs (10) 


Choose File accuracy 


Upload 
Traceinputs J® 


Color O structure 


Q Device 


[O] Compute time 





© Memory 
[| rcr 
5ys 13.2 ms : 


Devices included in stats: 
/job:localhost/replica:0/task:0/c 


unused substructure 


( input reshape ) 














3.2.5 DISTRIBUTIONS 面板 











DISTRIBUTIONS 面板 和 接 下 来 要 讲 的 HISTOGRAMS 面板 类 似 ， 只 不 过 是 用 平面 来 表示 
来 自 特 定 层 的 激活 前 后 、 权 重 和 偏 置 的 分 布 。 图 3-19 展示 的 是 激活 之 前 和 激活 之 后 的 数据 分 布 。 





















































Write a regex to create a tag group X layeri 
o Split on underscores layer1/Wx_plus_b/pre_activations layer1/Wx_plus_b/pre_activations layer1/activations 
test train test 
8.00 600 800 
Horizontal Axis 400 200 6.00 
0.00 一 一 一 一 一 -200 —— 400 
E RELATIVE WALL 
400 -600 200 
800 -100 一 一 一 一 一 一 一 一 一 | 
Runs 0.000 2000 400.0 600.0 800.0 1.000k 0.000 200.0 400.0 600.0 800.0 1.000k 0.000 200.0 400.0 600.0 800.0 1.000k 
Write a regex to filter runs He] He] HH 
O test layer1/activations layer1/biases/summaries/histogram layer1/biases/summaries/histogram 
train test train 
O train 
aoo 0.140 0.140 
400 
0100 0100 
00 
ow ss osco osoo 


0.000 200.0 400.0 600.0 800.0 1.000k 


图 3-19 


0.000 2000 4000 5000 8000 0.000 200.0 400.0 600.0 800.0 











3.2.6 HISTOGRAMS 面板 














HISTOGRAMS 主要 是 立体 地 展现 来 自 特定 层 的 激活 前 后 、 权 重 和 偏 置 的 分 布 。 图 3-20 JE 
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示 的 是 激活 之 前 和 激活 之 后 的 数据 分 布 。 








a regex to create a tag group x layert 





[C] Split on underscores layer1/Wx. plus. b/pre activations | layer1/Wx_plus_b/pre_activations | layer1/activations 
test train test 


Histogram Mode 


| 
-999 " 


Offset Time Axis -7.240.00 


Runs 


layer1/activations layer1/biases/summaries/histogram layer1/biases/summaries/histogram 
train test train 


Write a regex to filter runs 


O 〇 test 
O train = 




















3.2.7 EMBEDDINGS 面板 





EMBEDDINGS 面板 在 MNIST 这 个 示例 中 无 法 展示 ， 在 3.3 节 中 我 们 会 用 Word2vec 例子 
来 看 一 下 这 个 面板 的 词 杠 入 投影 仪 。 






































3.3 可视化 的 例子 


FAA (word embedding) 在 机 器 学 习 中 非常 常见 ， 可 以 应 用 在 自然 语言 处 理 、 推 荐 系统 
等 其 他 程序 中 。 下 面 我 们 就 以 Word2vec 为 例 来 看 看 词 嵌 入 投影 仪 的 可 视 化 。 

TensorFlow 的 Word2Vec 有 basic, optimised 这 两 个 版 本 ， 我 们 重点 来 看 这 两 个 版 本 的 可 视 
化 表示 。 
























































3.3.1 BEDIA 


本 节 将 以 GitHub 上 的 一 段 代 码 为 例 ， 讲 述 可 视 化 的 思路 。 

Word2vec 采用 text8 作为 文本 的 训练 数据 集 。 这 个 文本 中 只 包含 a~z 字符 和 空格 ， 共 27 
种 字符 。 我 们 重点 讲述 产生 的 结果 可 视 化 的 样子 以 及 构建 可 视 化 的 过 程 。 这 里 我 们 采用 的 是 
Skip-gram 模型 ， 即 根据 目标 词汇 预测 上 下 文 。 也 就 是 说 ， 给 定 n 个 词 围 绕 着 词 w， 用 w 来 预 










































































(D https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/word2vec/ word2vec basic.py 
© http://mattmahoney.net/dc/textdata 





测 一 
近 程 度 的 关系 如 图 3-21 所 示 。 


30 
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个 句子 中 其 中 一 个 缺漏 的 词 c， 以 概率 p(clw) 来 表示 。 最 后 生成 的 用 tSNE 降 维 呈现 词汇 接 
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在 word2vec basic.py 中 ， 从 获得 数据 到 最 终 得 到 可 视 
(1) 下 载 文件 并 读 取 数 据 。 主 要 是 read_data 函数 ， 





i 的 每 一 项 就 是 一 个 词 。 











def read data (filename): 


with zipfile.ZipFile(filename) as f: 
data 


return data 














10 


tf.compat.as str(f.read(f.namelist()[0])) 





20 30 40 


化 的 结果 的 过 程 分 为 5 步 。 
它 读 取 输 入 的 数据 ， 输 出 一 个 list， 上 























人 人 


这 里 的 data 就 类 似 于 ['fawn', 'homomorphism', 'nordisk', nunnery']。 





(2) 建立 一 个 词汇 字典 。 这 里 首先 建立 了 一 个 词汇 字典 ， 





vocabulary size 50000 


def build dataset (words): 
[['UNK', -1]] 


count 


字典 里 是 对 应 的 词 和 这 个 词 的 编码 。 
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count.extend(collections.Counter (words) .most common (Vocabulary size - 1) 
dictionary = dict() 
for word, _ in count: 
dictionary[word] = len(dictionary) 
data - list() 
unk count = 0 


for word in words: 
if word in dictionary: 
index = dictionary[word] 
else: 
index = 0 4 dictionary['UNK'] 
unk count += 1 
data.append (index) 
count[0] [1] = unk count 
reverse dictionary = dict(zip(dictionary.values(), dictionary.keys())) 
return data, count, dictionary, reverse dictionary 


data, count, dictionary, reverse dictionary = build dataset (words) 


dictionary 里 存储 的 就 是 词 与 这 个 词 的 编码 ; reverse dictionary 是 反 过 来 的 dictionary , X} 
的 是 词 的 编码 与 这 个 词 ， data 是 list， 存 储 的 是 词 对 应 的 编码 ， 也 就 是 第 一 步 中 得 到 的 词 的 list， 










































































由 














专 化 为 词 的 编码 表示 ; count 中 存储 的 是 词汇 和 词 频 ， 其 中 重复 数量 少 于 49999 ^i, 用 UNK' 











来 代表 稀有 词 o LR 如 下 $ 




















data [5239, 3084, 12, 6, 195, 2, 3137, 46, 59, 156] 
count [['UNK', 418391], ('the', 1061396), ('of', 593677), ('and', 416629), 


('one', 411764), ('in', 372201), ('a', 325873), ('to', 316376), ('zero', 264975), 
('nine', 250430)] 


dictionary ('fawn': 0, 'homomorphism': 1, 'nordisk': 2, 'nunnery': 3, 'chthonic': 


4, 'sowell': 5, 'sonja': 6, 'showa': 7, 'woods': 8, 'hsv': 9} 


reverse dictionary (0: 'fawn', 1: 'homomorphism', 2: 'nordisk', 3: 'nunnery', 4: 


'chthonic', 5: 'sowell', 6: 'sonja', 7: 'showa', 8: 'woods', 9: 'hsv'} 


(3) 产生 一 个 批 次 〈batch) 的 训练 数据 。 这 里 定义 generate batch 函数 ， 输 入 batch_size、 
num_skips 和 skip_window， 其 中 batch_size 是 每 个 batch 的 大 小 ，num_skips 代表 样本 的 源 端 要 
考虑 几 次 ，skip_windows 代表 左右 各 考虑 多 少 个 词 ， 其 中 skip_windows*2=num_skips。 最 后 返 
回 的 是 batch 和 label, batch 的 形状 是 [batch_size]，label 的 形状 是 [batch_size, 1]， 也 就 是 
中 心 词 来 预测 一 个 周边 词 。 

举 个 例子 。 假 设 我 们 的 句子 是 “我 在 写 一 首 歌 ” 我 们 将 每 一 个 字 用 dictionary 中 的 编码 代 
蔡 ， 就 变 成 了 [123, 3084, 12, 6, 195, 90]， 假 设 这 里 的 window size 是 3， 也 就 是 只 预测 上 文 一 个 
词 ， 下 文 一 个 词 ， 假 设 我 们 的 generate batch 函数 从 3084 出 发 ， 源 端 重复 2 次 ， 那 么 batch 就 
是 [3084 3084 12 12 6 6 195 195], 3084 的 上 文 是 123， 下 文 是 12; 12 的 上 文 是 3084， 下 文 是 6; 
615 Exe 12, PX 195; 195 的 上 文 是 6， 下 文 是 90。 因 此 ， 对 应 输出 的 label 就 是 : 
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LE 123] 


[12] 
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[3084] 
[ 6] 
E- 12] 
[-195] 
[ 6] 
[ 901] 


(4) 构建 和 训练 模型 。 这 里 我 们 构 
的 相关 论文 。 执 行 结果 如 下 : 





























一 个 Skip-gram 模型 ， 具 体 模 型 搭建 可 以 参考 Skip-gram 


[oos 
Tr 





Found and verified text8.zip 

Data size 17005207 # #4 17005207 个 单词 数 

Most common words (+UNK) [['UNK', 418391], ('the', 1061396), ('of', 593677), 

('and', 416629), ('one', 411764)] 

Sample data [5239, 3084, 12, 6, 195, 2, 3137, 46, 59, 156] ['anarchism', 'originated', 
'as', 'a', 'term', 'of', 'abuse', 'first', 'used', 'against'] 

3084 originated -» 5239 anarchism 

3084 originated -> 12 as 

12 as -» 3084 originated 

12as -»56 a 

6a -> 195 term 

> —512- as 

195 term -> 6 a 

195 term -> 2 of 

Initialized 

Average loss at step 0 : 263.743347168 

Nearest to a: following, infantile, professor, airplane, retreat, implicated, 

















ideological, epstein, 

Nearest to will: apokryphen, intercity, casta, nsc, commissioners, conjuring, 
Stockholders, bureaucrats, 

Nearest to this: option, analgesia, quelled, maeshowe, comers, inevitably, kazan, burglary, 
Nearest to in: embittered, specified, deicide, pontiff, omitted, edifice, levitt, cordell, 
Nearest to world: intelligible, unguarded, pretext, cinematic, druidic, agm, embarks, 
cingular, 

Nearest to use: hab, tabula, estates, laminated, battle, loyola, arcadia, discography, 
Nearest to from: normans, zawahiri, harrowing, fein, rada, incorrect, spandau, insolvency, 
Nearest to people: diligent, tum, cour, komondor, lecter, sadly, barnard, ebony, 
Nearest to it: fulfilled, referencing, paullus, inhibited, myra, glu, perpetuation, 
theologiae, 

Nearest to united: frowned, turkey, profusion, personifications, michelangelo, 
Sisters, okeh, claypool, 

Nearest to new: infanta, fen, mizrahi, service, monrovia, mosley, taxonomy, year, 
Nearest to seven: tilsit, prefect, phyla, varied, reformists, bc, berthe, acceptance, 
Nearest to also: pri, navarrese, abandonware, env, plantinga, radiosity, oops, manna, 
Nearest to about: lorica, nchen, closing, interpret, smuggler, viceroyalty, barsoom, caving, 
Nearest to his: introduction, mania, rotates, switzer, elvis, warped, chilli, 
etymological, 

Nearest to and: robson, fun, paused, scent, clouds, insulation, boyfriend, agreeable, 
Average loss at step 2000 : 113.878970229 

Average loss at step 4000 : 53.0354625027 
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Average loss at step 6000 : 33.5644974816 
Average loss at step 8000 : 23.246792558 
Average loss at step 10000 : 17.7630081813 


(5) 用 tSNE 降 维 呈 现 。 这 里 我 们 将 上 一 步 训练 的 结果 做 了 一 个 t+SNE 降 维 处 理 ， 最 终 用 
Matplotlib 绘制 出 图 形 ， 图 形 见 图 3-19。 代 码 如 下 : 



























































def plot with labels(low dim embs, labels, filename-'tsne.png!): 
assert low dim embs.shape[0] >= len(labels), "More labels than embeddings" 
plt.figure(figsize-(18, 18)) # in inches 
for i, label in enumerate (labels): 
X, y 7 low dim embs[i, :] 
plt.scatter(x, y) 
plt.annotate (label, 
xy-(x, y), 
xytext-(5, 2), 
textcoords-'offset points', 
ha-'right', 
va-'bottom') 


plt.savefig(filename) 


try: 
from sklearn.manifold import TSNE 
import matplotlib.pyplot as plt 


tsne - TSNE(perplexity-30, n components-2, init-'pca', n iter-5000) 
plot only = 500 

low dim embs - tsne.fit transform(final embeddings[:plot only, :]) 
labels - [reverse dictionary[i] for i in xrange(plot only)] 

plot with labels(low dim embs, labels) 


except ImportError: 
print("Please install sklearn, matplotlib, and scipy to visualize embeddings.") 








tSNE 是 流 形 学 习 (manifold Learning ) 方法 的 一 种 。 它 假设 数据 是 均匀 采样 于 一 个 高 维 空间 的 低 
维 流 形 ， 流 形 学 习 就 是 找到 高 维 空间 中 的 低 维 流 形 ， 并 求 出 相应 的 谋 入 映射 以 实现 维 数 约 简 或 
者 数据 可 视 化 。 流 形 学 习 方法 分 为 线性 的 和 非 线 性 的 两 种 。 线 性 的 流 形 学 习 方 法 如 主 成 份 分 析 
(PCA )， 非 线性 的 流 形 学 习 方法 如 等 距 特 征 映 射 (Isomap )、 拉 普 拉 斯 特征 映射 ( Laplacian 














eigenmaps，LE )、 局 部 线性 岁入 (Locally-linear embedding, LLE ) 等 。 





3.3.2. PERAIRAN 
在 3.2 节 中 我 们 说 到 , 在 TensorBorad 的 面板 中 还 有 一 个 EMBEDDINGS 面板 , 用 于 交互 式 
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可 视 化 和 分 析 高 维 数据 。 对 于 上 面 的 word2vec_basic.py 文件 ， 我 们 只 是 做 了 一 个 降 维 分 析 ， 下 
生 我 们 就 来 看 看 TensorBorad 在 词 嵌 入 中 的 投影 。 这 里 采用 官方 GitHub 开源 实现 上 的 例子 3E 
行 讲 解 。 




































































这 里 我 们 自 定 义 了 两 个 操作 Coperator, OP): SkipgramWord2vec 和 NegTrainWord2vec。 为 
十 么 需要 自 定义 操作 以 及 如 何 定义 一 个 操作 将 在 4.10 节 介 绍 。 操 作 需 要 先 编译 ， 然 后 执行 。 这 
里 采用 Mac OS 系统 ， 在 g++ 命令 后 加 上 -undefined dynamic lookup 参数 : 
































TF_INC=$ (python -c 'import tensorflow as tf; print(tf.sysconfig.get include())') 


g++ -std=c++11 -shared word2vec ops.cc word2vec kernels.cc -o word2vec ops.so -fPIC -I 
$TF INC -02 -D GLIBCXX USE CXX11 ABI=0 





在 当前 目录 下 生成 word2vec_ops.so 文件 , 然后 执行 word2vec_optimized.py,， 生 成 的 模型 和 
日 志文 件 位 于 /tmp/， 我 们 执行 : 








tensorboard --logdir=/tmp/ 





访问 http://192.168.0.101:6006/， 得 到 的 EMBEDDINGS 面板 如 图 3-22 所 示 。 











TensorBoard 





EMBEDDINGS 


DATA ii D Show All Isolate Clear 
Data selection selection 
会 


win - © 


Sphereize data @ 


Checkpoint: /tmp/model.ckpt-2264203 





Search * ind. ~ 


Metadata: 


FSN PCA USTOM 





Component #1 = Component#2 ~ 





Component #3 ~ 





PCA is approximate. @ 


Total variance described: 10.1%. 





BOOKMARKS (0) @ ^ 











图 3-22 














TE EMBEDDINGS 面板 左 侧 的 工具 栏 中 ， 可 以 选择 降 维 的 方式 ， 有 工 SNE、PCA 和 CUSTOM 


Y 


的 降 维 方式 ， 并 且 可 以 做 二 维 / 三 维 的 图 像 切换 。 例 如 ， 切 换 到 CSNE 降 维 工具 ， 可 以 手动 调整 


z 


Dimension (WRX), Learning rate (学 习 率 ) 等 参数 ， 最 终生 成 10 000 个 点 的 分 布 ， 如 图 3-23 所 示 。 
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(D https://github.com/tensorflow/models/blob/master/tutorials/embedding/word2vec optimized.py 
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TensorBoard SCALARS AUDIO DISTRIBUTIONS HISTOGRAMS EMBEDDINGS 





DATA Show Isolate Clear 
All Data 71291 selection 

会 points 

2 tensors found 


win - 








Sphereize data 9 
Checkpoint: /tmp/model.ckpt.2264203 


Metadata: 


TSNE PCA CUSTOM 





Dimension 2 e so 


Perplexity | ————— ——e 88 


Learning @ e— 10 


Iteration: 97 


For fast results, the data will be sampled 
down to 10,000 points. 


How to use t-SNE effectively. 
u BOOKMARKS (0) @ ^ 

















图 3-23 





在 EMBEDDINGS 面板 的 右 侧 ， 可 以 采用 正则 表达 式 匹 配 出 某 些 词 ， 直 观 地 看 到 词 之 间 的 
余弦 距离 或 欧式 距离 的 关系 ， 如 图 3-24 所 示 。 

















2i ) | Points: 71291 | Dimension: 200 | Selected 1111 points Show All Isolate Clear 
Data 1111 points selection 


Search by 
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( 34 
340 
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343 
344 
345 
346 
347 
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3400 
3401 
3402 
3403 





BOOKMARKS (0) @ ^ 











图 3-24 


任意 选择 一 个 点 ， 如 8129， 选 择 “isolate 101 points” 按 钮 ， 将 会 展示 出 100 个 在 空间 
接近 被 选择 点 的 词 ， 也 可 以 调整 展示 的 词 的 数量 ， 如 
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上 最 








图 3-25 所 示 。 




















as: D | Points: 101 | Dimension: 200 | Selected 101 points Don Em EXE 
Data points selection 
会 / 
© «s 2 
8129 ^ Search * ind.. ~ 
一 Index 一 8129 neighbors @ -@ 100 
(1660 186477 
distance COSINE EUCLIDIAN 
€3461 á 
aa13 000 11080 «9777 
«5. 
«2454 e » Nearest points in the original space: 
414998 A 
43820 +398 857 0.822 
42947 j12374 
Ton e1143 660 0.877 
5820 917480 «162 "NC 
©5820 e6946 Y 481 29. | 18478 0.887 
22090122 e 458976 
. e € «46518 20951 0911 
20951 024; 一 一 
$1467 407734 ess 5436 0.913 
eM oss ° vg. 9116665534539 042190 9777 0.926 
* «59616 * «0006 6477 9777 929 
T 462189 EI 
pues 4810382 «13169 ae «32343 35586 0.948 
911053 «38889 @48555 1 3025 ®47146 1679 0.948 
618478 «5/696 042184 PM 
420316 468089 14998 0.949 
eue 11080 0.950 
@41106 pp 32343 0.951 
. 
$9913 BOOKMARKS (0) @ ^ 
图 3-25 
3.4 ”小结 














可 视 化 是 研究 深度 学 习 的 一 个 重要 方向 ， 有 利于 我 们 直观 地 探究 训练 过 程 中 的 每 一 步 发 生 

















的 变化 。TensorFlow 提供 了 强大 的 了 
板 也 非常 丰富 。 在 4.3.2 节 我 们 会 讲解 实现 TensorBoard f 














TensorFlow 的 调试 工具 























[ 具 TensorBoard， 不 仅 有 完善 的 API 接口 ， 而 且 提 供 的 面 
J API。 在 第 17 章 我 们 还 会 讲 到 




















， 调 试 和 可 视 化 配合 起 来 ， 有 利于 精准 地 调整 模型 。 
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TensorFlow 基础 知识 





本 章 主要 参考 TensorFlow 官方 网 站 上 的 新 手 入 门 和 扩展 教程 ， 讲 解 TensorFlow 的 基本 
概念 。 本 章 从 系统 架构 、 设 计 理念 、 编 程 模型 、 常 用 API、 存 储 与 加 载 模型 、 线 程 及 队列 、 加 
载 数据 、 自 定义 操作 等 多 个 方面 进行 讲解 ， 相 信 通 过 本 章 的 学 习 ， 读 者 会 对 TensorFlow 的 全 貌 
有 一 个 基本 的 认识 。 本 章 的 学 习 对 理解 TensorFlow 的 原理 和 实战 非常 重要 ， 读 者 需要 用 心 揣摩 。 






























































































































































4.1 ”系统 染 构 


图 4-1 给 出 的 是 TensorFlow 的 系统 架构 ， 自 底 向 上 分 为 设备 层 和 网 络 层 、 数 据 操作 层 、 
图 计算 层 、API 层 、 应 用 层 ， 其 中 设备 层 和 网 络 层 、 数 据 操作 层 、 图 计算 层 是 TensorFlow 的 核 
心 层 。 

下 面 就 自 底 向 上 详细 介绍 一 下 TensorFlow 的 系统 架构 。 最 下 层 是 网 络 通 信 层 和 设备 管理 层 。 
网 络 通信 层 包 括 gRPC (google Remote Procedure Call Protocol) 和 远程 直接 数据 存 取 (Remote Direct 
Memory Access，RDMA)， 这 都 是 在 分 布 式 计算 时 需要 用 到 的 。 设 备 管理 层 包括 TensorFlow 分 
别 在 CPU、GPU、FPGA 等 设备 上 的 实现 ， 也 就 是 对 上 层 提 供 了 一 个 统一 的 接口 ， 使 上 层 只 需 
要 处 理 卷 积 等 逻辑 ， 而 不 需要 关心 在 硬件 上 的 卷 积 的 实现 过 程 。 
其 上 是 数据 操作 层 ， 主 要 包括 卷 积 函数 、 激 活 函 数 等 操作 (参见 4.7 节 )。 再 往 上 是 图 计算 
层 ， 也 是 我 们 要 了 解 的 核心 ， 包含 本 地 计算 图 和 分 布 式 计算 图 的 实现 (本 章 会 做 基础 知识 的 梳 
理 ， 包 括 图 的 创建 、 编 译 、 优 化 和 执行 ， 本 书 的 “实战 篇 ”会 介绍 图 的 具体 应 用 ， 第 15 章 会 
介绍 分 布 式 计算 图 的 实现 )。 再 往 上 是 API 层 和 应 用 层 (4.4 节 和 4.7 节 会 介绍 重点 常用 的 API 
的 Python 实现 以 及 一 些 其 他 语言 的 实现 ， 本 书 的 “实战 篇 ”会 重点 讲解 调用 API 层 对 深度 学 习 
各 种 网 络 模型 的 实现 )。 






























































































































































































































































































































































(D https://www.tensorflow.org/get started/get started 
© https://www.tensorflow.org/extend/architecture 


Q 本 节 内 容 参考 https:Wwww.tensorflow.org/extend/architecture。 
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训练 相关 类 库 预测 相关 类 库 


应 用 层 


API 层 


分 布 式 计算 图 本 地 计算 图 


图 计算 层 


数据 操作 层 








图 4-1 


4.2 ”设计 理念 


TensorFlow 的 设计 理念 主要 体现 在 以 下 两 个 方 国 
CD 将 图 的 定义 和 图 的 运行 完全 分 开 。 因 此 ，TensorFlow 被 认为 是 一 个 “符号 主义 ”的 库 。 
我 们 知道 ， 编 程 模式 通常 分 为 命令 式 编程 (imperative style programming) 和 符号 式 编 程 
(symbolic style programming). 命令 式 编程 就 是 编写 我 们 理解 的 通常 意义 上 的 程序 , 很 容易 理解 
和 调试 ， 按 照 原 有 逻辑 执行 。 符 号 式 编程 涉及 很 多 的 嵌入 和 优化 ， 不 容易 理解 和 调试 ， 
速度 相对 有 所 提升 。 现 有 的 深度 学 习 框 架 中 ，Torch 是 典型 的 命令 式 的 ，Caffe、MXNet 采用 了 
两 种 编程 模式 混合 的 方法 ， 而 TensorFlow 完全 采用 符号 式 编程 。 
符号 式 计算 一 般 是 先 定义 各 种 变量 , 然后 建立 一 个 数据 流 图 ， 在 数据 流 图 中 规定 各 个 变量 之 间 
的 计算 关系 ， 最 后 需要 对 数据 流 图 进行 编译 ， 但 此 时 的 数据 流 图 还 是 一 个 空 克 儿 ， 里 面 没有 任何 实 
际 数据 ， 只 有 把 需要 运算 的 输入 放 进 去 后 ， 才 能 在 整个 模型 中 形成 数据 流 ， 从 而 形成 输出 值 。” 
例如 : 
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© ”这 一 段 参 考 http;//www.xuel63.com/5800/10381/58008965.html . 
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在 传统 的 程序 操作 中 ， 定 义 了 t 的 运算 ， 在 运行 时 就 执行 了 ， 并 输出 17。 而 在 TensorFlow 
中 ， 数 据 流 图 中 的 节点 ， 实 际 上 对 应 的 是 TensorFlow API 中 的 一 个 操作 ， 并 没有 真正 去 运行 : 



































import tensorflow as tf 
t = tf.add(8, 9) 
print(t) # 输出 Tensor("Add 1:0", shape-(), dtype-int32) 




















定义 了 一 个 操作 ， 但 实际 上 并 没有 运行 。 

(2) TensorFlow 中 涉及 的 运算 都 要 放 在 图 中 ， 而 图 的 运行 上 只 发 生 在 会 话 (session) 中 。 
自 会 话 后 ， 就 可 以 用 数据 去 填充 节点 ， 进 行 运算 ， 关 闭会 话 后 ， 就 不 能 进行 计算 了 。 因 此 ， 会 
话 提供 了 操作 运行 和 Tensor 求 值 的 环境 。 例 如 : 








































































































import tensorflow as tf 





# 创建 图 

a = tf.constant([1.0, 2.0] 
b = tf.constant([3.0, 4.0] 
c-a*b 





# 创建 会 话 


# 计算 c 
print sess.run(c) # 进行 矩阵 乘法 ， 输 出 [3.，8.] 
sess.close() 


了 解 了 设计 理念 ， 接 下 来 看 一 下 TensorFlow 的 编程 模型 。 


















































4.3 ”编程 模型 " 


TensorFlow 是 用 数据 流 图 做 计算 的 ， 因 此 我 们 先 创建 一 个 数据 流 图 〈 也 称 为 网 络 结构 图 )， 
如 图 4-2 所 示 ， 看 一 下 数据 流 图 中 的 各 个 要 素 。 
图 4-2 讲述 了 TensorFlow 的 运行 原理 。 图 中 包含 输入 Cinput)、 塑 形 (reshape), Relu 层 (Relu 
layer), Logit 层 (Logit layer), Softmax. ^£ XFIT (crossentropy). hE (gradient), SGD 训练 
(SGD Trainer) 等 部 分 ， 是 一 个 简单 的 回归 模型 。 
它 的 计算 过 程 是 , 首先 从 输入 开始 , 经 过 塑 形 后 ,一 层 一 层 进 行 前 向 传播 运算 。Relu 层 CES 
WE) 里 会 有 两 个 参数 ， 即 所 1 和 bw， 在 输出 前 使 用 ReLu (Rectified Linear Units) 激活 函数 
做 非 线性 处 理 。 然 后 进入 Logit 层 〈 输 出 层 )， 学 习 两 个 参数 WAS bmo MH Softmax 来 计算 输 
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© 本 节 内 容 参考 TensorFlow 白皮书 《TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems): 
http://download.tensorflow.org/paper/whitepaper2015.pdf. 
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出 结果 中 各 个 类 别 的 概率 分 布 。 用 交叉 燃 来 度量 两 个 概率 分 布 ( 源 样本 的 概率 分 布 和 输出 结果 
的 概率 分 布 ) 之 间 的 相似 性 。 然 后 开始 计算 梯度 ， 这 里 是 需要 参数 所 1、Pbh1、WWws 和 bas UAR 
ENEE R. BEREA SGD 训练 ， 也 就 是 反 向 传播 的 过 程 ， 从 上 往 下 计算 每 一 层 的 参数 ， 























依次 进行 更 新 。 也 就 是 说 ， 计 算 和 更 新 的 顺序 为 Dass Won ba 和 Waro 





SGD 训练 







i learning rate-[0.01] 





classes=[10] 







Re 





shape=[784,1] 


图 4-2 











顾名思义 ，TensorFlow 是 指 “ 张 量 的 流动 >。TensorFlow 的 数据 流 图 





是 











| 节点 (ode) 和 边 











Cedge) 组 成 的 有 向 无 环 图 (directed acycline graph，DAG)。TensorFlow 由 Tensor 和 Flow 两 部 








分 组 成 ，Tensor( 张 量 ) 代表 了 数据 流 图 中 的 边 ， 而 Flow 流 动 ) 这 个 动作 就 代表 了 数据 流 图 








© 本 图 参考 https://www.tensorflow.org/images/tensors flowing.gif. 
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节点 所 做 的 操作 。 




















4.3.1 边 
TensorFlow 的 边 有 两 种 连接 关系 : 数 
代表 数据 ， 即 张 量 。 任 意 维度 的 数据 统称 为 张 量 。 在 









































E ROBUR Fe OEC. dE 
机 器 学 














， 实 线 边 表示 数据 依赖 ， 
习 算 法 中 ， 张 量 在 数据 流 图 中 从 前 














往 后 流动 一 遍 就 完成 了 一 次 前 向 传播 (forword propagation)， 而 残 差 从 后 向 前 流动 一 遍 就 完成 
了 一 次 反 向 传播 (backword propagation). 



























































还 有 一 种 特殊 边 ， 
作 的 运行 ， 这 被 用 来 确 
节点 开始 执行 前 完成 执行 。 常 








用 代码 如 下 : 


tf.Graph.control dependencies (control inputs) 
































般 画 为 虚线 边 ， 称 为 控制 依赖 《control dependency)， 可 以 用 于 控制 操 
f happens-before 关系 ， 这 类 边 上 没 





有 数据 流 过 ， 但 源 节 点 必须 在 目的 




























































































































































































TensorFlow 文 持 的 张 量具 有 表 4-1 所 示 的 数据 属性 。 
表 4-1 
数据 类 型 Python 类 型 描述 
DT FLOAT tf.float32 32 位 浮 点 型 
DT_DOUBLE tf.float64 64 位 浮 点 型 
DT_INT64 tf.int64 64 位 有 符号 整 型 
DT INT32 tf.int32 32 位 有 符号 整 型 
DT INTI6 tf.int16 16 位 有 符号 整 型 
DT INT8 tf.int8 8 位 有 符号 整 型 
DT UINT8 tf.uint8 8 位 无 符号 整 型 
DT STRING tf.string 可 变 长 度 的 字 节 数组 ， 每 一 个 张 量 元 素 都 是 一 个 字 节 数组 
DT BOOL tf.bool 布尔 型 
DT_COMPLEX64 | tf.complex64 个 32 位 浮 点 数组 成 的 复数 : 实 部 和 虚 部 
DT QINT32 tf.qint32 用 于 量化 ?操作 的 32 位 有 符号 整 型 
DT_QINTS tf.qint8 ] 于 量化 操作 的 8 位 有 符号 整 型 
DT_QUINTS tf.quint8 于 量化 操作 的 8 位 无 符号 整 型 
© 源 自 图 论 里 的 DAG、 数 据 依赖 、 控 制 依赖 的 相关 描述 。 
© 在 数理 统计 中 ， 残 差 是 指 实际 观察 值 与 训练 的 估计 值 之 间 的 差 。 
© 量化 是 数字 信号 处 理 领 域 的 一 个 概念 ， 是 指 将 信号 的 连续 取 值 〈 或 者 大 量 可 能 的 离散 取 值 ) 近似 为 有 限 多 个 〈 或 
较 少 的 ) 离散 值 的 过 程 (参考 百度 百科 “量化 ”)。 
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有 关 图 及 张 量 的 实现 的 源 代码 均 位 于 tensorflow-1.1.0/tensorflow/python/framework/ops.py， 














后 面 会 详细 讲 。 























4.3.2 PA 











图 中 的 节点 又 称 为 算 子 ， 它 代表 一 个 操作 〈operation，OP)， 一 般 
算 ， 也 可 以 表示 数据 输入 (feed in) 的 起 点 以 及 输出 (push out) 的 终点 ， 

















] 来 表示 施加 的 数学 运 
或 者 是 读 取 / 写 入 持久 





-—- 


变量 (persistent variable) 的 终点 。 表 4-2 列举 了 一 些 TensorFlow 实现 的 算 子 。 算 子 支持 表 4-1 




















所 示 的 张 量 的 各 种 数据 属性 ， 并 且 需 要 在 建立 图 的 时 候 确 定 下 来 。 

































































表 4-2” 

类 别 示例 
数学 运算 操作 Add. Subtract, Multiply. Div. Exp. Log. Greater. Less. Equal: 
数组 运算 操作 Concat、 Slice、 Split、Constant、Rank、Shape、Shuffle……: 
和 矩阵 运算 操作 MatMul、MatrixInverse、MatrixDeterminant……… 
有 状态 的 操作 Variable、Assign、AssignAdd…… 
神经 网 络 构 建 操作 SoftMax、Sigmoid、ReLU、Convolution2D、MaxPool,……… 
检查 点 操作 Save、Restore 
队列 和 同步 操作 Enqueue、Dequeue、MutexAcquire、MutexRelease……: 
控制 张 量 流动 的 操作 Merge. Switch. Enter. Leave. Nextlteration 











与 操作 相关 的 代码 位 于 tensorflow-1.1.0/tensorflow/python/ops/ H 3€ F 




















。 以 数学 运算 为 例 , 代 


人 码 为 上 述 目 录 下 的 math_ops.py， 里 面 定义 了 add, subtract, multiply, scalar_mul, div, divide, 





























truediv、floordiv 等 数学 运算 ， 每 个 函数 里 面 调 用 了 gen math. ops.py ! 






































的 方法 ， 这 个 文件 是 在 





编译 (安装 时 ) TensorFlow 时 生成 的 ， 位 于 Python FÉ site-packages/tensorflow/python/ops/gen_ 

















math ops.py 中 ， 随 后 又 调用 了 tensorflow-1.1.0/tensorflow/core/kernels/ F 














concat. split. slice, size, rank 等 运算 ， 每 个 函数 都 调用 了 gen array ops 








如 ， 数 据 运 算 的 代码 位 于 tensorflow-1.1.0/tensorflow/python/ops/array_ops.py 中 ， 里 面 定 义 了 
.py 中 的 方法 ， 这 个 文件 











四 的 核 函数 实现 。 再 例 


















































也 是 在 编译 TensorFlow 时 生成 的 ， 位 于 Python 库 site-packages/tensorflow/python/ops/gen_array_ops.py 
中 ， 随 后 又 调用 了 tensorflow-1.1.0/tensorflow/core/kernels/ 下 面 的 核 函 数 实 现 。 


























4.3.3 ”其 他 概念 














除了 边 和 节点 ，TensorFlow 还 涉及 其 他 一 些 概念 ， 如 图 、 会 话 、 设 备 、 变 量 、 内 核 等 。 下 




















QD 本 表 的 内 容 参 考 TensorFlow 白皮书 《TensorFlow: Large-Scale Machine Learning on Heterog 
http://download.tensorflow.org/paper/whitepaper2015.pdf。 
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用 就 分 别 介 绍 一 下 。 














1. 图 








把 操作 任务 描述 成 有 向 无 环 图 。 那 么 ， 如 何 构建 一 个 图 呢 ? 构建 图 的 第 一 步 是 创建 各 个 节 
点 。 有 具体 如 下 : 



























































import tensorflow as tf 





创建 一 个 常量 运算 操作 ， 产 生 一 个 1X2 HEE 
matrix1 - tf.constant([[3., 3.]]) 











创建 另外 一 个 常量 运算 操作 ， 产 生 一 个 2x1 AREE 
matrix2 = tt.constant([[2.]，[2.]]) 














创建 一 个 矩阵 乘法 运算 ， 把 matrixl 和 matrix2 作为 输入 
返回 值 product 代表 矩阵 乘法 的 结果 








product = tf.matmul(matrixl, matrix2) 
2. 会 话 














启动 图 的 第 一 步 是 创建 一 个 Session 对 象 。 会 话 (session) 提供 在 图 中 执行 操作 的 一 些 方法 。 
一 般 的 模式 是 ， 建 立会 话 ， 此 时 会 生成 一 张 空 图 ， 在 会 话 中 添加 节点 和 边 ， 形 成 一 张 图 ， 然 后 
执行 。 

要 创建 一 张 图 并 运行 操作 的 类 ,在 Python 的 API PIEH t£Session, YE C++ 的 API 中 使 用 
tensorflow::Session。 示 例如 下 : 



























































with tf.Session() as sess: 
result = sess.run([product]) 
print result 





在 调用 Session 对 象 的 run0 方 法 来 执行 图 时 ， 传 入 一 些 Tensor， 这 个 过 程 叫 填充 Ceed); 
返回 的 结果 类 型 根据 输入 的 类 型 而 定 ， 这 个 过 程 叫 取 回 〈fetch )。 

与 会 话 相 关 的 源 代码 位 于 tensorflow-1.1.0/tensorflow/python/client/session.py。 

会 话 是 图 交互 的 一 个 桥梁 ， 一 个 会 话 可 以 有 多 个 图 ， 会 话 可 以 修改 图 的 结构 ， 也 可 以 往 图 
注入 数据 进行 计算 。 因 此 , 会 话 主 要 有 两 个 API 接口 : Extend fll Run. Extend 操作 是 在 Graph 
添加 节点 和 边 ，Run 操作 是 输入 计算 的 节点 和 填充 必要 的 数据 后 ， 进 行 运算 ， 并 输出 运算 
结果 。 






















































































Ne 


3. 设备 




















ik (device) 是 指 一 块 可 以 用 来 运算 并 且 拥有 自己 的 地 址 空间 的 硬件 ， 如 GPU 和 CPU. 
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TensorFlow 为 了 实现 分 布 式 执行 操作 ， 充 分 利用 计算 资源 ， 可 以 明确 指定 操作 在 哪个 设备 上 执 
行 。 具体 如 下 : 








with tf.Session() as sess: 
# 指定 在 第 二 个 gpu 上 运行 
with tf.device("/gpu:1"): 
matrixl = tf.constant([[3., 3.]]) 
matrix2 = tf.constant([[2.1,([2.11]) 
product = tf.matmul(matrixl, matrix2) 








与 设备 相关 的 源 代码 位 于 tensorflow-1.1.0/tensorflow/python/framework/device.py . 





变量 (variable) 是 一 种 特殊 的 数据 , 它 在 图 中 有 固定 的 位 置 ， 不 像 普通 张 量 那样 可 以 流动 。 
例如 ， 创 建 一 个 变量 张 量 ， 使 用 tf.Variable() 构 造 函 数 ， 这 个 构造 函数 需要 一 个 初始 值 ， 初 始 值 
的 形状 和 类 型 决定 了 这 个 变量 的 形状 和 类 型 : 





















































li 





* 创建 一 个 变量 ， 初 始 化 为 标量 0 


state = tf.Variable(0, name-"counter") 


创建 一 个 常量 张 量 : 











inputl = tf.constant (3.0) 


TensorFlow 还 提供 了 填充 机 制 ， 可 以 在 构建 图 时 使 用 tf.placeholderO la ep EHEVEESSBRTERUSK 
量 ,在 调用 Session 对 象 的 run0 方 法 去 执行 图 时 ， 使 用 填充 数据 作为 调用 的 参数 ， 调 用 结束 后 ， 
填充 数据 就 消失 。 代 码 示例 如 下 : 


















































M— 













































































inputl = tf.placeholder (tf.float32) 
input2 = tf.placeholder (tf.float32) 
output = tf.multiply(inputl, input2) 
with tf.Session() as sess: 
print sess.run([output], feed dict-(inputl:[7.], input2:[2.]1]) 
# 输出 [array([ 14.], dtype-float32)] 





与 变量 相关 的 源 代码 位 于 tensorflow/tensorflow/python/ops/variables.py o 





5. 内 核 





我 们 知道 操作 〈operation ) 是 对 抽象 操作 (如 matmul 或 者 add) 的 一 个 统称 ， 而 内 核 (kernel) 
则 是 能 够 运行 在 特定 设备 〈 如 CPU. GPU) 上 的 一 种 对 操作 的 实现 。 因 此 ， 同 一 个 操作 可 能 会 
对 应 多 个 内 核 。 
当 自 定义 一 个 操作 时 ， 需 要 把 新 操作 和 内 核 通过 注册 的 方式 添加 到 系统 中 。4.10 节 会 用 一 
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个 示例 来 讲解 如 何 自 定义 一 个 操作 。 














4.4 常用 API 


了 解 TensorFlow 的 API 有 































































































中 基本 上 都 会 用 到 。 这 里 主要 介绍 














© 






































要 的 是 理解 API 的 功能 及 其 背后 





4.4.1 _ 图、 操作 和 张 量 
TensorFlow 的 计算 表现 为 





(tf.Operation)， 以 及 在 操作 之 间 流 动 的 数据 一 一 张 量 对 象 〈tf.Tensor)。 与 图 


tf.Graph 类 中 ， 参 见 表 4-3. 


操作 





g 原 理 o 





助 于 在 应 用 时 得 心 应 手 。 下 面 介绍 的 是 常用 API， 在 后 面 的 示例 
基于 Python 的 API， 基 于 其 他 语言 的 API 也 大 同 小 异 ， 最 重 


数据 流 图 ， 所 以 t£Graph 类 中 包含 一 系列 表示 计算 的 操作 对 象 














相关 的 API 均 位 于 








tf.Graph. init () 








tf.Graph.as default() 





















































将 某 图 设置 为 默认 图 ， 并 返回 一 个 上 下 文 管理 器 。 如 果 不 

































































加 入 默认 图 中 


显 式 添加 一 个 默认 图 ， 系 统 会 自动 设置 一 个 全 局 的 默认 
图 。 所 设置 的 默认 图 ， 在 模块 范围 内 定义 的 节 ， 


点 都 将 默认 





tf.Graph.device(device name or function) 





























定义 运行 图 所 使 用 的 设备 ， 并 返回 一 个 上 下 文 管理 器 



































tf.Graph.name scope(name) 


t£Operation 类 代表 图 中 的 一 个 节点 ， 用 于 计算 张 量 数据 。 该 类 型 由 节点 构造 器 Cl 
或 者 Graph.create op()) 产生 。 例如 , c= tfmatmul(a, b) 创 建 一 个 Operation 类 , 其 类 型 为 MatMul 























为 节点 创建 层次 化 的 名 称 ， 并 返回 一 个 上 下 文 管理 器 





























的 操作 类 。 与 操作 相关 的 API 均 位 于 tfOperation 类 中 ， 参 见 表 4-4。 


操作 


表 4-4 


Bi 
[Ss 


I| t£matmul() 





tf.Operation.name 


操作 的 名 称 





tf.Operation.type 


操作 的 类 型 ， 如 MatMul 





tf.Operation.inputs 
tf.Operation.outputs 








操作 的 输入 与 输出 























(D dT Java 和 Go 语言 的 API 还 在 完善 , 基于 Java 语言 的 API 参见 https://www.tensorflow.org/api_docs/java/reference/org/ 
tensorflow/package-summary。 基 于 Go 语言 的 API 参见 https://godoc.org/github.com/tensorflow/tensorflow/tensorflow/go o 


操作 
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tf.Operation.control inputs 


操作 的 依赖 





t£ Operation.run(feed dict-None, session-None) 


在 会 话 中 运行 该 操作 





tf.Operation.get attr(name) 














获取 操作 的 属性 值 














tf Tensor 类 是 操作 输出 的 符号 句柄 ， 它 不 包含 操作 输出 的 值 ， 而 是 提供 了 一 种 在 tf.Session 



























































计算 这 些 值 的 方法 。 这 样 就 可 以 在 操作 之 间 构 建 一 个 数据 流连 接 ， 使 TensorFlow 能 够 执行 一 





个 表示 大 量 多 步 计 算 的 图 形 。 与 张 量 相关 的 API 均 位 于 芋 Tensor 类 中 ， 人 参见 表 4-5. 
















































































表 4-5 

操作 描述 
tf. Tensor.dtype 张 量 的 数据 类 型 
tf.Tensor.name 张 量 的 名 称 
tf.Tensorvalue index 张 量 在 操作 输出 中 的 索引 
tf. Tensor.graph 张 量 所 在 的 图 
tf.Tensor.op 产生 该 张 量 的 操作 
tf.Tensor.consumers() 返回 使 用 该 张 量 的 操作 列表 
tf.Tensor.eval(feed_dict=None, session-None) nhu 值 ， 需 要 使 用 sess.as default) kH 
tf.Tensor.get shape() 返回 用 于 表示 张 量 的 形状 〈 维 度 ) 的 类 TensorShape 





tf.Tensorset shape(shape) 














更 新 张 量 的 形状 





tf. Tensor.device 


4.4.2 ”可视化 









































设置 计算 该 张 量 的 设备 

















在 第 3 章 中 ， 我 们 讲解 了 可 视 化 面板 的 功能 ， 但 如 何 编写 可 视 化 的 程序 呢 ? 可 视 化 时 ， 需 





要 在 程序 中 给 必要 的 节点 添加 摘要 (summary)， 摘 要 会 收集 该 节点 的 数据 ， 并 标记 上 第 几 步 、 时 





间 惟 等 标识 ， 写 入 事件 文件 Cevent file) 中 。 tf.summary.FileWriter 类 
并 且 向 文件 中 添加 摘要 和 事件 ， 用 来 在 TensorBoard : 


JHJ API 操作 。 















































K 4-6 给 出 了 可 视 化 常 











API 

















表 4-6 


























] 于 在 目录 ! 











创建 事件 文件 ， 














展示 。9.3 节 将 详细 讲解 可 视 化 的 过 程 。 





描述 





t£summary.FileWriter. init (logdir, graph-None, max queue= 


10, flush secs-120, graph def-None) 





创建 FileWriter 和 事件 文件 ， 会 在 logdir 
中 创建 








个 新 的 事件 文件 





t£summary.FileWriter.add. summary(summary, global step=None) 





将 摘要 添加 到 事件 文件 








tf.summary.FileWriter.add event(event) 











向 事件 文件 中 添加 一 个 事件 
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续 表 

API 描述 
rt | graph(graph, global_step=None, graph_ 名 事件 文件 中 添加 一 个 区 
tf.summary.FileWriter.get logdir() 获取 事件 文件 的 路 径 
tf.summary.FileWriter.flush() 将 所 有 事件 都 写 入 磁盘 
tf.summary.FileWriter.close() 将 事件 写 入 磁盘 ， 并 关闭 文件 操作 符 
tf.summary.scalar(name, tensor, collections=None) 输出 包含 单个 标量 值 的 摘要 
tf.summary.histogram(name, values, collections=None) 输出 包含 直方 图 的 摘要 
tf.summary.audio(name, tensor, sample rate, max_outputs=3, 输出 包含 音频 的 摘要 
collections=None) 
tf.summary.image(name, tensor, max_outputs=3, collections= None) | 输出 包含 图 片 的 摘要 
tf.summary.merge(inputs, collections=None, name=None) 合并 摘要 ， 包 含 所 有 输入 摘要 的 值 














4.5 变量 作用 域 





在 TensorFlow 中 有 两 个 作用 域 (scope)， 一 个 是 name_scope， 另 一 个 是 variable_scope。 它 
们 究竟 有 什么 区 别 呢 ? 简 而 言 之 ,name_scope 主要 是 给 variable_name 加 前 绥 , 也 可 以 给 op_name 
加 前 级 ;name_scope 是 给 op name 加 前 级 。 下 面 我 们 就 来 分 别 介绍 。 








4.5.1 variable scope 示例 








variable scope 变量 作用 域 机 种 





一 六 





在 TensorFlow 中 主要 由 两 部 分 组 成 : 

















v = tf.get variable(name, shape, dtype, initializer) # 通过 所 给 的 名 字 创 建 或 是 返回 一 个 变量 
tf.variable scope (<scope name») # 为 变量 指定 命名 空间 

































































当 tf.get_variable_scope().reuse == False 时 ，variable_scope 作用 域 只 能 用 来 创建 新 变量 : 





with tf.variable scope ("foo"): 
v = tf.get variable("v", [1]) 
v2 = tf.get variable("v", [1]) 


assert v.name -- "foo/v:0" 























上 述 程序 会 抛 出 ValueError 错误 ， 因 为 v 这 个 变量 已 经 被 定义 过 了 ， 但 tfget variable | 
scope().reuse 默认 为 False， 所 以 不 能 重用 。 
当 tf.get, variable scope().reuse == True 时 ， 作 用 域 可 以 共享 变量 : 





























Ir 


with tf.variable scope("foo") as scope: 
v = tf.get variable("v", [1]) 
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with tf.variable scope("foo", reuse-True): 
# 也 可 以 写成 : 
#scope.reuse variables() 
vl = tf.get variable("v", [1]) 


assert vl -- v 


获取 变量 作用 域 


























可 以 直接 通过 给 variable_scope0 来 获取 变量 作用 域 : 





with tf.variable scope("foo") as foo scope: 
v = tf.get variable("v", [1]) 

with tf.variable scope(foo. Vore) 
w = tf.get variable("w", [1]) 


如 果 在 开启 的 一 个 变量 作用 域 里 使 用 之 前 预先 定义 的 一 个 作用 域 ， 则 会 跳 过 当前 变量 的 作 
域 ， 保 持 预 先 存在 的 作用 域 不 变 。 






























































with tf.variable scope("foo") as foo scope: 
assert foo scope.name == "foo" 

with tf.variable scope ("bar") 
with tf.variable scope("baz") as other scope: 


assert other scope.name -- "bar/baz" 
with tf.variable scope(foo scope) as foo scope2: 
assert foo scope2.name -- "foo" 4 保持 不 变 


2. 变量 作用 域 的 初始 化 











变量 作用 域 可 以 默认 携带 一 个 初始 化 器 ， 在 这 个 作用 域 中 的 子 作 用 域 或 变量 都 可 以 继承 或 
者 重 写 父 作用 域 初始 化 器 中 的 值 。 方 法 如 下 : 





with tf.variable scope("foo", initializer-tf.constant initializer(0.4)): 

















v = tf.get variable("v", [1]) 

assert v.eval() == 0.4 s 被 作用 域 初始 化 

w= tf.get variable("w", [1], initializer-tf.constant initializer(0.3)): 
assert w.eval() == 0.3 # 3 初始 化 器 的 值 





with tf.variable scope ("bar"): 
v = tf.get variable("v", 1) 
assert v.eval() == 0.4 # 继承 默认 的 初始 化 器 
"paz", initializer-tf.constant initializer(0.2)): 
"yv", 1) 
-2 4 重 写 父 作 用 域 的 初始 化 器 的 值 


上 面 讲 的 是 variable name， 那 对 于 op name 呢 ? 在 variable scope 作用 域 下 的 操作 ， 也 会 
被 加 上 前 绥 








with tf.variable scope 
v = tf.get variab 

















( 
assert v.eval() == 0 





























with tf.variable scope ("foo"): 
x = 1.0 + tf.get variable("v", [1]) 
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assert x.op.name == "foo/add" 















































其 中 需要 大 量 的 共享 变量 。 





variable scope 主要 用 在 循环 神经 网 络 RNN) 的 操作 | 














| 


4.5.2 name scope 示例 











TensorFlow 中 常常 会 有 数 以 千 计 的 节点 , 在 可 视 化 的 过 程 中 很 难 一 下 子 展示 出 来 ,因此 
] name scope 为 变量 划分 范围 ， 在 可 视 化 中 ， 这 表示 在 计算 图 中 的 一 个 层级 。name_scope 
会 影响 op name， 不 会 影响 用 get_variable() 创 建 的 变量 ， 而 会 影响 通过 Variable0 创 建 的 变 
量 。 因此 : 







































































with tf.variable scope("foo") : 
with tf.name scope ("bar"): 

v = tf.get variable("v", [1]) 
b = tf.Variable(tf.zeros([1]), name-'b') 
x 1.04 v 

assert v.name -- "foo/v:0" 

assert b.name -- "foo/bar/b:0" 

assert x.op.name -- "foo/bar/add" 


HD ELS Hi, t£name scope0 返 回 的 是 一 个 字符 串 ， 如 上 述 的 "bar" 。name_ scope 对 用 
get_variableO 创 建 的 变量 的 名 字 不 会 有 任何 影响 ， 而 Variable0 创 建 的 操作 会 被 加 上 前 级 ， 并 且 
会 给 操作 加 上 名 字 前 级 。 



































4.6 批 标准 化 


批 标准 化 (batch normalization, BN) 是 为 了 克服 神经 网 络 层 数 加 深 导 致 难以 训练 而 诞生 的 。 
我 们 知道 ， 深 度 神经 网 络 随 着 网 络 深度 加 深 ， 训 练 起 来 会 越 来 越 困 难 ， 收 敛 速度 会 很 忆 —， 常 常 
会 导致 梯度 弥散 问题 (vanishing gradient problem). 

统计 机 器 学 习 中 有 一 个 ICS (Internal Covariate Shift) 理论 ,这 是 一 个 经 典 假 设 : 源 域 (source 
domain) 和 目标 域 (target domain) 的 数据 分 布 是 一 致 的 。 也 就 是 说 ， 训 练 数据 和 测试 数据 
是 满足 相同 分 布 的 。 这 是 通过 训练 数据 获得 的 模型 能 够 在 测试 集 获得 好 的 效果 的 一 个 基本 
保障 。 

Covariate Shift 是 指 训练 集 的 样本 数据 和 目标 样本 集 分 布 不 一 致 时 , 训练 得 到 的 模型 无 法 很 
好 地 泛 化 〈generalization)。 它 是 分 布 不 一 致 假设 之 下 的 一 个 分 文 问题 ， 也 就 是 指 源 域 和 目标 域 
的 条 件 概率 是 一 致 的 ， 但 是 其 边缘 概率 不 同 。 的 确 ， 对 于 神经 网 络 的 各 层 输出 ， 在 经 过 了 层 内 
操作 后 , 各 层 输出 分 布 就 会 与 对 应 的 输入 信和 号 分 布 不 同 , 而 且 差异 会 随 着 网 络 深度 增 大 而 加 大 ， 
但 是 每 一 层 所 指向 的 样本 标记 dabel 仍然 是 不 变 的 。 
解决 思路 一 般 是 根据 训练 样本 和 目标 样本 的 比例 对 训练 样本 做 一 个 矫正 。 



















































































































































































>H 





此 ， 通 过 引入 
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批 标准 化 来 规范 化 " 某 些 层 或 者 所 有 层 的 输入 ， 从 而 固定 每 层 输入 信号 的 均值 与 方差。 








4.6.51 方法 


批 标准 化 一 般 用 在 非 线性 映射 (激活 函数 ) 之 前 ， 对 x=Wu+b 做 规范 化 ， 使 结果 输出 
信号 各 个 维度 ) 的 均值 为 0， 方 差 为 1。 让 每 一 层 的 输入 有 一 个 稳定 的 分 布 会 有 利于 网 络 的 
训练 。 

































































4.6.2 fra 


批 标准 化 通过 规范 化 让 激活 函数 分 布 在 线性 区 间 ， 结 果 就 是 加 大 了 梯度 ， 让 模型 更 加 大 胆 
地 进行 梯度 下 降 ， 于 是 有 如 下 优点 : 

e 加 大 探索 的 步 长 ， 加 快 收敛 的 速度 ; 

e 更 容易 跳出 局 部 最 小 值 ; 

e 破坏 原来 的 数据 分 布 ， 一 定 程度 上 缓解 过 拟 合 。 
因此 , 在 遇 到 神经 网 络 收敛 速度 很 慢 或 梯度 爆炸 ”(gradient explode) 等 无 法 训练 的 情况 下 ， 
都 可 以 尝试 用 批 标准 化 来 解决 。 




























































































4.6.3 “示例 


我 们 对 每 层 的 Wx_plus_b 进行 批 标准 化 ， 这 个 步骤 放 在 激活 函数 之 前 ; 









































# 计算 Wx plus b 的 均值 和 方差 ， 其 中 axes- [0] 表 示 想 要 标准 化 的 维度 
fc mean, fc var = tf.nn.moments (Wx plus b, axes-[0], ) 








Scale - tf.Variable(tf.ones([out size])) 
shift = tf.Variable(tf.zeros([out size])) 


epsilon = 0.001 
Wx plus b = tf.nn.batch normalization(Wx plus b, fc mean, fc var, shift, 


Scale, epsilon) 





# 也 就 是 在 做 : 
# Wx plus b = (Wx plus b - fc mean) / tf.sqrt(fc var + 0.001) 
# Wx plus b = Wx plus b * scale + shift 




















更 多 关于 批 标准 化 的 理论 可 以 查看 Sergey Ioffe 和 Christian Szegedy 的 论文 《Batch 


Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift) ^. 




















na 























(D 规范 化 ， 这 里 也 可 以 称 为 标准 化 ， 是 将 数据 按 比 例 缩放 ， 使 之 落 入 一 个 小 的 特定 区 间 。 这 里 是 指 将 数据 减 去 平均 
值 ， 再 除 以 标准 差 。 


© 梯度 爆炸 与 梯度 消失 相反 ， 如 果 是 梯度 非常 大 ， 链 式 求 导 后 乘积 就 变 得 很 大 ， 使 权重 变 得 非常 大 ， 产 生 指 数 级 爆炸 。 
© https://arxiv.org/abs/1502.03167 
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4.7 ”神经 元 图 数 及 优化 方法 


本 节 主 要 介绍 TensorFlow 中 构建 神经 网 络 所 需 的 4 
数 、 池 化 函数 、 损 失 函 数 、 优 化 器 等 。 读 者 阅读 时 ， 务 必 把 本 节 介 绍 的 常用 
于 在 “实战 篇 ” 轻 轻 松 松 地 构建 衬 





4.7.1 


激活 函数 (activation function) 运行 时 激活 ff 
经 网 络 。 订 


传 入 下 
是 激活 


数 保 





FH 





EJ 3 


激活 函数 











映射 到 





Ritt 












































经 元 函数 ， 包 括 各 种 激活 函数 、 卷 积 函 
API 记 熟 ， 这 有 利 





























经 网 络 进行 训练 。 




















经 网 络 ! 














某 一 部 分 神经 元 ， 将 激活 信息 向 后 























经 网 络 之 所 以 能 解决 非 线 性 问题 〈 如 语音 、 
函数 加 入 了 非 线性 因素 ， 弥 补 了 线性 模型 的 表达 力 ， 把 “激活 
下 一 层 。 

因为 神经 网 络 的 数学 基础 是 处 处 可 微 的 ， 所 以 选取 的 激活 函数 要 
是 可 微 的 。 那 么 激活 函数 在 TensorFlow 中 是 如 何 表 达 的 呢 ? 





图 像 识 别 )， 本 质 上 就 
的 神经 元 的 特征 ” > 












































保证 数据 输入 与 输 


出 也 





CC 


2 
H 











激活 函数 不 会 更 改 输入 数据 的 维度 ， 也 就 是 输入 和 输出 的 维度 是 相同 的 。TensorFlow 中 有 


如 下 激活 


H 





函数 ， 它 们 定义 在 tensorflow-1.1.0/tensorflow/python/ops/nn.py 文件 中 ， 
非 线性 的 激活 



































这 里 包括 平滑 








函数 ， 如 sigmoid, tanh, elu, softplus 和 softsign， 也 包括 连续 但 不 是 处 处 可 微 的 





函数 relu、relu6、crelu 和 relu x， 以 及 随机 正则 化 函数 dropout: 


DI. 
tí 
GES 
ET. 
TES 
tE. 
Dre 
EI. 
LI. 
ET. 


上 述 激活 
见 的 激活 函数 有 
sigmoid 函数 。 这 是 传统 
图 4-3 所 示 。 
方法 如 下 : 


(1 
公式 和 
使 


a = tf.constant([[1.0, 








) 





图 




















.relu() 
.Sigmoid() 
.tanh() 
.elu() 
.bias add() 
.crelu() 
.relu6() 
.Softplus() 
.Softsign() 
.dropout () 








f 








* 防止 过 拟 合 ， 


函数 的 输入 均 为 要 计算 的 x (一 个 张 量 
sigmoid、tanh、relu 和 softplus 这 4 种 。 


sess = tf.Session() 


2.0], [1.0, 











来 舍弃 某 些 神经 元 














E 
FH o 





)， 输 出 均 为 与 x 数据 类 型 相同 的 张 
下 面 我 们 就 来 逐一 讲解 。 
申 经 网 络 中 最 常用 的 激活 函数 之 一 〈 男 一 个 是 tanh)， 对 应 的 


常 












































2.0], [1.0, 2.011) 


print sess.run(tf.sigmoid(a)) 


sigmoid 函数 的 优点 在 于 ， 它 的 输出 映射 在 (0,1D) 内 ， 单 调 连 续 ， 非 常 适合 用 作 输 出 层 ， 并 且 
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图 4-3 
























































求 导 比较 容易 。 但 是 ， 它 也 有 缺点 ， 因 为 软 饱和 性 ”， 一 旦 输入 落 入 饱和 区 ，f'(x) 就 会 变 得 接近 





于 0， 很 容易 产生 梯度 消失 。 





Q 








(2) tanh 函数 。 对 应 的 公式 和 图 像 如 图 4-4 所 示 。 











tanh(x) = = 
l+e™” 











tanh 函数 也 具有 软 饱 和 性 。 因 为 它 的 输出 以 0 为 中 心 ， 收 敛 速度 比 sigmoid 要 快 。 但 是 仍 





无 法 解决 梯度 消失 的 问 





relu 就 是 一 类 左 侧 硬 饱 和 





题 。 








激活 函数 。 





© 梯度 消失 是 指 在 更 新 模型 参数 时 采 /) 









































度 对 模型 的 更 新 就 没有 人 


F 何 贡献 了 。 








链 式 求 导 法 则 反 向 求 导 ， 越 往 前 梯度 越 小 。 最 终 的 结果 是 到 达 一 定 深 


QD 软 饱 和 是 指 激活 函数 h(x) 在 取 值 趋 于 无 穷 大 时 , 它 的 一 阶 导 数 趋 于 0。 硬 饱和 是 指 当 k| >c 时 ,其 中 < 为 常数 ,f(x)=0。 





度 后 梯 
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G) relu 函数 是 目前 最 受 欢 迎 的 激活 函数 。softplus 3 —— 
SEN MENS softplus 
可 以 看 作 是 ReLU 的 平滑 版 本 。relu 定义 为 hx)=max(x,0)。 
softplus 定义 为 f(x)-log(1-exp(x)). 

















由 图 4-5 n] JL, relu 在 x«0 时 硬 饱和 。 
导数 为 1， 所 以 ，relu 能 够 在 x0 时 保持 梯度 不 衰减 ， 从 

而 缓解 梯度 消失 问题 ， 还 能 够 更 快 地 收敛 ， 并 提供 了 — 0? 
神经 网 络 的 稀疏 表达 能 力 。 但 是 ， 随 着 训练 的 进行 ， 


























1 F x>0 时 € 1 












































2L 











部 分 输入 会 落 到 硬 饱 和 区 ， 导 致 对 应 的 权重 无 法 更 新 ， C a a a a 




















称 为 “神经 元 死亡 ”。 
使 示例 如 下 : 




















a - tf. 


constant([-1.0, 2.0] 


with tf.Session() as sess: 
b = tf.nn.relu(a) 


print sess.run(b) 
除了 reu 本 身 外 ，TensorFlow 还 定义 了 relu6， 也 就 是 定义 在 min(max(features, 0), 6) 的 
tf.nn.relu6(features, name=None)， 以 及 crelu， 也 就 是 tf.nn.crelu(features, name=None)。 


(4) dropout 函数 。 一 个 神经 元 将 以 概率 keep. prob 决定 是 否 被 抑制 。 如 果 被 抑制 ， 该 神经 


元 的 输出 就 为 0， 如 果 不 被 抑制 ， 那 么 该 








































































































经 元 的 输出 值 将 被 放大 到 原来 的 1/keep_prob 倍 。 
在 默认 情况 下 ， 每 个 神经 元 是 否 被 抑制 是 相互 独立 的 。 但 是 否 被 抑 表 


























Q 








AL 


也 可 以 通过 noise shape 来 


























调节 。 当 noise shape[i] == shape(x)[i]l], x 中 的 元 素 是 相互 独立 的 。 如 果 shape(x) = [k, 1, m, n], 
x 中 的 维度 的 顺序 分 别 为 批 、 行 、 列 和 通道 ， 如 果 noise shape = [k, 1, 1,n]， 那 么 每 个 批 和 通道 
都 是 相互 独立 的 ， 但 是 每 行 和 每 列 的 数据 都 是 关联 的 ， 也 就 是 说 ， 要 不 都 为 0， 要 不 都 还 是 原 

















来 的 值 。 





使 用 示例 如 下 : 


a = tf.constant([[-1.0, 2.0, 3.0, 4.0]] 
with tf.Session() as sess: 
b = tf.nn.dropout(a, 0.5, noise shape 


print sess.run(b) 
b = tf.nn.dropout(a, 0.5, noise shape 


print sess.run(b) 





(D dropout 在 论文 中 最 早 被 提出 时 是 这 么 做 的 : 在 训练 的 时 1 





) 














[1,4]) 


[1,1]) 

















K 














概率 p 丢弃 ， 然 后 在 预测 的 时 候 ， 所 有 参数 按 比例 缩 



































小 ， 也 就 是 乘 以 p。 在 各 种 深度 学 习 框 架 (如 Keras、TensorFlow) 的 实现 中 ， 都 是 用 反 向 ropout 来 代替 dropout。 





也 就 是 这 是 
任务 处 理 。 














EHE 





有 所 说 的 ， 在 训练 的 时 候 一 边 dropout， 然 后 





比例 放大 ， 也 就 是 乘 以 1p， 然 后 在 预测 的 时 候 ， 不 做 
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= BUR ER 数 的 选 先 择 





当 输 入 数据 特征 相差 明显 时 , 用 tanh 的 效果 会 很 好 , 且 在 循环 过 程 中 会 不 断 扩大 特征 效果 并 显示 
出 来 。 当 特征 相差 不 明显 时 ，sigmoid 效果 比较 好 。 同 时 ， 用 sigmoid 和 tanh 作为 激活 函数 时 ， 
需要 对 输入 进行 规范 化 ， 否 则 激活 后 的 值 全 部 都 进入 平坦 区 ， 隐 尾 的 输出 会 全 部 趋同 ， 责 失 原 有 
的 特征 表达 。 而 relu 会 好 很 多 ， 有 时 可 以 不 需要 输入 规范 化 来 避免 上 述 情况 
因此 ， 现 在 大 部 分 的 卷 积 神经 网 络 都 采用 relu 作为 激活 函数 。 我 估计 大 概 有 859690900 t9 22 A 
络 会 采用 ReLU，10% 一 15% 的 神经 网 络 会 采用 tanh， 尤 其 用 在 自然 语言 处 理 上 。 


























4.7.2 RR 


RBA EEA RAEES, 是 在 一 批 图 像 上 扫描 的 二 维 过 滤器 。9.4.1 节 会 详细 讲 
e 的 过 程 。 卷 积 函 数 定义 在 tensorflow-1.1.0/tensorflow/python/ops 下 的 nn impl.py 和 
nn_ops.py 文件 中 。 























tf.nn.convolution(input, filter, padding, strides-None, 
dilation rate-None, name-None, data format-None) 
tf.nn.conv2d(input, filter, strides, padding, use cudnn on gpu-None, 
data format- None, name-None) 
tf.nn.depthwise conv2d (input, filter, strides, padding, rate-None, name-None, 
data format-None) 
tf.nn.separable conv2d (input, depthwise filter, pointwise filter, strides, padding, 
rate-None, name-None, data format-None) 
tf.nn.atrous conv2d(value, filters, rate, padding, name-None) 
tf.nn.conv2d transpose (value, filter, output shape, strides, padding-'SAME', 
data format-'NHWC', name-None) 
tf.nn.convld (value, filters, stride, padding, use cudnn on gpu-None, 
data format- None, name-None) 
tf.nn.conv3d(input, filter, strides, padding, name-None) 
tf.nn.conv3d transpose(value, filter, output shape, strides, padding-'SAME', name-None) 


下 面 就 分 别 加 以 说 明 。 

C1) t£nn.convolution(input, filter, padding, strides-None, dilation rate-None, name-None, 
data format =None) 这 个 函数 计算 N 维 卷 积 的 和 。 

(2) tf.nn.conv2d(input, filter, strides, padding, use cudnn on gpu-None, data format-None, 
name=None) 这 个 函数 的 作用 是 对 一 个 四 维 的 输入 数据 input 和 四 维 的 卷 积 核 fiter HITRE, Z 
后 对 输入 数据 进行 一 个 二 维 的 卷 积 操作 ， 最 后 得 到 卷 积 之 后 的 结果 。 



























































def conv2d(input, filter, strides, padding, use cudnn on gpu-None, 
data format-None, name-None) 

# 输入 : 

# input; 一 个 Tensor。 数 据 类 型 必须 是 float32 或 者 float64 
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filter; 一 个 Tensor。 数 据 类 型 必须 是 input 相同 
strides:; 一 个 长 度 是 4 的 一 维 整 数 类 型 数组 , 每 一 维度 对 应 的 是 input 中 每 一 维 的 对 应 移动 步 数 ， 
比如 ，strides[1] 对 应 input[1] 的 移动 步 数 
padding: 一 个 字符 串 ， 取 值 为 SAME 或 者 VALID 
padding-'SAME'; 仅 适 用 于 全 尺寸 操作 ， 即 输入 数据 维度 和 输出 数据 维度 相同 
padding='VALID: 适用 于 部 分 窗口 ， 即 输入 数据 维度 和 输出 数据 维度 不 同 
use cudnn on gpu; 一 个 可 选 布 尔 值 ， 默 认 情况 下 是 True 
name; (可 选 ) 为 这 个 操作 取 一 个 名 字 

输出 一 个 Tensor， 数 据 类 型 是 input 相同 


使 示例 如 下 : 











































































































input data = tf.Variable( np.random.rand(10,9,9,3), dtype = np.float32 ) 
filter data = tf.Variable( np.random.rand(2, 2, 3, 2), dtype = np.float32) 
y = tf.nn.conv2d(input data, filter data, strides = [1, 1, 1, 1], padding = 'SAME') 








打印 出 给 shape(y) 的 结果 是 [10 9 9 2]. 


(3) t£nn.depthwise conv2d (input, filter, strides, padding, rate=None, name-None,data format= 
None) 这 个 函数 输入 张 量 的 数据 维度 是 [batch, in. height, in width, in_channels]， 卷 积 核 的 维度 是 
[filter height, filter width, in channels, channel multiplier], 在 通道 in_channels 上 面 的 卷 积 深度 是 
1, depthwise_conv2d 函数 将 不 同 的 卷 积 核 独立 地 应 用 在 in channels 的 每 个 通道 上 (从 通道 1 
到 通道 channel _mnultiplier)， 然 后 把 所 以 的 结果 进行 汇总 。 最 后 输出 通道 的 总 数 是 in. channels * 


channel multiplier. 


使 i 示例 如 下 ; 




































































input data = tf.Variable( np.random.rand(10, 9, 9, 3), dtype = np.float32 ) 
filter data = tf.Variable( np.random.rand(2, 2, 3, 5), dtype = np.float32) 
y-tf.nn.depthwise conv2d(input data, filter data, strides = [1, 1, 1, 1], padding = 'SAME') 

















这 里 打印 出 给 shape(y) 的 结果 是 [10 9 9 15]. 


(4) t£nn.separable conv2d (input, depthwise filter, pointwise filter, strides, padding, rate=None, 
name-None, data_format=None) 是 利用 几 个 分 离 的 卷 积 核 去 做 卷 积 。 在 这 个 API 中 , 将 应 用 一 个 
二 维 的 卷 积 核 ， 在 每 个 通道 上 ， 以 深度 channel multiplier 进行 卷 积 。 
























































def separable conv2d (input, depthwise filter, pointwise filter, strides, padding, 
rate=None, name=None, data format=None) 
特殊 参数 : 
depthwise filter: 一 个 张 量 。 数 据 维度 是 四 维 [filter height, filter width, in channels, 
channel multiplier]. H}, in channels 的 卷 积 深度 是 1 
pointwise filter; 一 个 张 量 。 数 据 维度 是 四 维 [1, 1, channel multiplier * in channels, 
out channels], Kuh, xb on 是 在 depthwise filter 卷 积 之 后 的 混合 卷 积 


使 示例 如 下 : 







































































input data = tf.Variable( np.random.rand(10, 9, 9, 3), dtype = np.float32 ) 
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depthwise filter = tf.Variable( np.random.rand(2, 2, 3, 5), dtype = np.float32) 

pointwise filter = tf.Variable( np.random.rand(1, 1, 15, 20), dtype = np.float32) 

f out channels »- channel multiplier * in channels 

y = tf.nn.separable conv2d(input data, depthwise filter, pointwise filter, 
strides = [1, 1, 1, 1], padding = 'SAME') 


这 里 打印 出 给 shape(y) 的 结果 是 [10 9 9 20]. 


(5) tf.nn.atrous_conv2d(value, filters, rate, padding, name=None) 计 算 Atrous 卷 积 ， 又 称 孔 卷 
积 或 者 扩张 卷 积 。 
使 用 示例 如 下 : 

















input data = tf.Variable( np.random.rand(1,5,5,1), dtype = np.float32 ) 
filters = tf.Variable( np.random.rand(3,3,1,1), dtype = np.float32) 
y = tf.nn.atrous conv2d(input data, filters, 2, padding-'SAME') 


这 里 打印 出 tshape(y) 的 结果 是 [1 5 5 1]. 

(6) tfnn.conv2d transpose(value, filter, output shape, strides, padding='SAME', data format-NHWC,, 
name-None) 在 解 卷 积 网 络 (deconvolutional network) 中 有 时 称 为 “ 反 卷 积 ”, 但 实际 上 是 conv2d 
的 转 置 ， 而 不 是 实际 的 反 卷 积 。 





























def conv2d transpose (value, filter, output shape, strides, padding-'SAME', 
data format-'NHWC', name-None) 

# 特殊 参数 : 

# ”output shape: 一 维 的 张 量 ， 表 示 反 卷 积 运算 后 输出 的 形状 

# 输出 ， 和 value 一 样 维度 的 Tensor 


使 i 示例 如 下 : 























x = tf.random normal (shape-[1,3,3,1]) 

kernel = tf.random normal (shape-[2,2,3,1]) 

y = tf.nn.conv2d transpose(x,kernel,output shape-[1,5,5,3], 
strides-[1,2,2,1],padding-"SAME") 


这 里 打印 出 t£.shape(y)H] Z& RELL 5 5 3]. 

(7) t£nn.conv1d(value, filters, stride, padding, use cudnn on gpu-None, data format-None, 
name=None) 和 二 维 卷 积 类 似 。 这 个 函数 是 用 来 计算 给 定 三 维 的 输入 和 过 滤器 的 情况 下 的 一 维 卷 
积 。 不 同 的 是 ， 它 的 输入 是 三 维 ， 如 [batch, in width, in_channels]。 卷 积 核 的 维度 也 是 三 维 ， 少 
了 一 维 filter height， 如 [filter width, in channels, out channels]. stride 是 一 个 正 整数 ， 代 表 卷 积 
核 向 右 移动 每 一 步 的 长 度 。 

(8) t£nn.conv3d(input, filter, strides, padding, name=None) 和 二 维 卷 积 类 似 。 这 个 函数 用 来 计 
算 给 定 五 维 的 输入 和 过 滤器 的 情况 下 的 三 维 卷 积 。 和 二 维 卷 积 相对 比 : 



























































NR 









































© JV T tensorflow-1.1.0/tensorflow/python/ops/nn ops.py. 
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e input 的 shape F£ T —4f in depth， 形 状 为 Shape[batch, in depth, in height, in width, 


in | 


e filter 的 shape 中 多 了 一 维 filter depth, 


channels]; 


积 核 的 大 小 ; 
e strides 中 多 了 一 维 ， 变 为 [strides batch, strides depth, strides height, strides width, 


strides_channel]， 必 须 保证 strides[0] = strides[4] = 1。 
(9) tf.nn.conv3d transpose(value, filter, output shape, strides, padding='SAME', name-None) 
和 二 维 反 卷 积 类 似 ， 不 再 费 述 。 

















4 


4.7.8 ” 池 化 函数 





tf.nn 
tf.nn 
tf.nn 
tfn 


tf.nn. 


tf.nn.fractional max pool(value, pool 


tf.nn 


在 神经 网 络 ! 














.avg pool (value, 
.max pool (value, 


.Pool (input, window shape, pool 


name-None, 








fractional avg pool(value, pool 









































filter depth, filter height, filter width 构成 了 卷 





， 池 化 函数 一 般 跟 在 卷 积 函数 的 下 一 层 ， 它 们 也 被 定义 在 tensorflow-1.1.0/ 
tensorflow/python/ops 下 的 nn.py 和 gen nn ops.py 文件 中 。 


ksize, strides, padding, data format-'NHWC', name-None) 
ksize, strides, padding, data format-'NHWC', name-None) 
.max pool with argmax (input, ksize, strides, padding, Targmax-None, name-None) 
.avg pool3d(input, ksize, strides, padding, name-None) 

tf.nn.max pool3d(input, ksize, strides, padding, name-None) 


ling ratio, pseudo random-None, overlapping-None, 


deterministic-None, seed-None, seed2-None, name-None) 


ling ratio, pseudo random-None, overlapping-None, 


deterministic-None, seed-None, seed2-None, name-None) 


data format-None) 











ing type, padding, dilation rate-None, strides-None, 


池 化 操作 是 利用 一 个 矩阵 窗口 在 张 量 上 进行 扫描 ， 将 每 个 矩阵 窗口 中 的 值 通过 取 最 大 值 或 
平均 值 来 减少 元 素 个 数 。 每 个 池 化 操作 的 矩阵 窗口 大 小 是 由 ksize 指定 的 , 并 且 根 据 步 长 strides 
决定 移动 步 长 。 下 面 就 分 别 来 说 明 。 

(1) t£nn.avg pool(value, ksize, strides, padding, data format-'NHWC', name=None)。 这 个 函 
数 计算 池 化 区 域 中 元 素 的 平均 值 。 








E 


MH: 









































def avg_pool (value, 


输入 : 


























IT 























ksize, strides, padding, data format-'NHWC', name-None) 











value; 一 个 四 维 的 张 量 。 数 据 维 




















» 





度 是 [batch, height, width, channels] 
ksize: 一 个 长 度 不 小 于 4 的 整 型 数组 。 每 一 位 上 的 值 对 应 于 输入 数据 张 量 中 每 一 维 的 窗口 对 应 值 


























strides; 一 个 长 度 不 小 于 4 的 整 型 数组 。 该 参数 指定 滑动 窗 
padding: 一 个 字符 串 ， 取 值 为 SAME 或 者 VALID 

data_format: 'NHWC' 代表 输入 张 量 维度 的 顺序 ，N 为 个 数 ， 
通道 或 者 灰 度 单 通道 ) 
name (可 选 ): 为 这 个 操作 取 一 个 名 字 
一 个 张 量 ， 数 据 类 型 和 value 相同 




















使 示例 如 下 : 




















在 输入 数据 张 量 每 一 维 上 的 步 长 
































H 为 高 度 ，W 为 宽度 ，C 为 通道 数 (RGB 三 
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input data = tf.Variable( np.random.rand(10,6,6,3), dtype = np.float32 ) 
filter data = tf.Variable( np.random.rand(2, 2, 3, 10), dtype = np.float32) 


y = tf.nn.conv2d(input data, filter data, strides = [1, 1, 1, 1], padding = 'SAME') 
output = tf.nn.avg pool(value = y, ksize = [1, 2, 2, 1], strides = [1, 1, 1, 1], 
padding -'SAME') 
上 述 代 码 打 印 出 蔚 shape(outpub 的 结果 是 [10 6 6 10]。 计 算 输 出 维度 的 方法 是 ，shape(outpub = 
(shape(value) - ksize + 1) / strides. 








(2) t£nn.max pool(value, ksize, strides, padding, data format-"'NHWC', name-None). X^ K 
数 是 计算 池 化 区 域 中 元 素 的 最 大 值 。 
使 用 示例 如 下 : 



































input data = tf.Variable( np.random.rand(10,6,6,3), dtype = np.float32 ) 

filter data = tf.Variable( np.random.rand(2, 2, 3, 10), dtype = np.float32) 

y = tf.nn.conv2d(input data, filter data, strides = [1, 1, 1, 1], padding = 'SAME') 

output = tf.nn.max pool(value = y, ksize = [1, 2, 2, 1], strides = [1, 1, 1, 1], 
padding -'SAME') 


上 述 代码 打印 出 葵 shape(output) 的 结果 是 [10 6 6 10]. 








(3) t£.nn.max pool with argmax(input, ksize, strides, padding, Targmax = None, name=None)。 
这 个 函数 的 作用 是 计算 池 化 区 域 中 元 素 的 最 大 值 和 该 最 大 值 所 在 的 位 置 。 


在 计算 位 置 argmax 的 时 候 ， 我 们 将 input 铺 平 了 进行 计算 ， 所 以 ， 如 果 input = [b, y, x, c]. 
那么 索引 位 置 是 (( b * height + y) * width + x) * channels + c. 


使 用 示例 如 下 ， 该 函数 只 能 在 GPU 下 运行 ， 在 CPU 下 没有 对 应 的 函数 实现 : 


















































input data = tf.Variable( np.random.rand(10,6,6,3), dtype = tf.float32 ) 
filter data = tf.Variable( np.random.rand(2, 2, 3, 10), dtype = np.float32) 


y = tf.nn.conv2d(input data, filter data, strides = [1, 1, 1, 1], padding = 'SAME') 
output, argmax = tf.nn.max pool with argmax(input = y, ksize = [1, 2, 2, 1], 
strides = [1, 1, 1, 1], padding = 'SAME') 


返回 结果 是 一 个 张 量 组 成 的 元 组 Coutput, argmax), output 表示 池 化 区 域 的 最 大 值 ，argmax 
的 数据 类 型 是 Targmax， 维 度 是 四 维 。 

(4) t£nn.avg pool3d0 和 t£.nn.max pool3d0 分 别 是 在 三 维 下 的 平均 池 化 和 最 大 池 化 。 

(5) tfnn.fractional avg pool()/l t£.nn.fractional max pool0 分 别 是 在 三 维 下 的 平均 池 化 和 最 大 池 化 。 

(6) t£.nn.pool(input, window shape, pooling type, padding, dilation rate-None, strides-None, 
name-None, data_format=None)。 这 个 函数 执行 一 个 N 维 的 池 化 操作 。 
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4.7.4 ”分 类 函数 





TensorFlow 中 常见 的 分 类 函数 主要 有 sigmoid cross entropy with logits, softmax, log softmax、 
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y 


softmax cross entropy with logits 等 ， 它 们 也 主要 定义 在 tensorflow-1.1.0/tensorflow/python/ops 的 
nn.py 和 nn ops.py 文件 中 。 








tf.nn.sigmoid cross entropy with logits(logits, targets, name-None) 
tf.nn.softmax(logits, dim--1, name-None) 

tf.nn.log softmax(logits, dim--1, name-None) 
tf.nn.softmax cross entropy with logits(logits, labels, dim--1, name-None) 
tf.nn.sparse softmax cross entropy with logits(logits, labels, name-None) 


下 面 我 们 就 逐一 讲解 。 


(1) t£nn.sigmoid cross entropy with logits(logits, targets, name=None): 

















def sigmoid cross entropy with logits(logits, targets, name-None): 

# 输入 : logits:[batch size, num classes],targets:[batch size, size].logits 用 最 后 
# 层 的 输入 即 可 
# 最 后 一 层 不 需要 进行 sigmoid 运算 ， 此 函数 内 部 进行 了 sigmoid 操作 
# 输出 : loss [batch size, num classes] 






























































这 个 函数 的 输入 要 格外 注意 ， 如 果 采 用 此 函数 作为 损失 函数 ， 在 神经 网 络 的 最 后 一 层 不 需 
要 进行 sigmoid 运算 。 
(2) tfnn.softmax(logits, dim—1, name=None) 计 算 Softmax 激活 ， 也 就 是 softmax = exp(logits) / 


reduce sum(exp(logits), dim). 


(3) t£nn.log softmax(logits, dim=-1, name-None)il $i log softmax 激活 ， 也 就 是 logsoftmax = 
logits - log(reduce sum(exp(logits), dim)). 


(4) t£nn.softmax cross entropy with logits( sentinel-None, labels-None, logits-None, dim--1, 





name —None): 


def softmax cross entropy with logits(logits, targets, dim--1, name-None): 
# 输入 : logits and labels 均 为 [batch size, num classes] 
# 输出 : loss:[batch size]， 里 面 保存 的 是 patch rp APA FEZKIBIAE SU 








(5) tf.nn.sparse softmax cross entropy with logits(logits, labels, name-None) : 





def sparse softmax cross entropy with logits(logits, labels, name-None): 

# logits 是 神经 网 络 最 后 一 层 的 结果 

# 输入 : logits: [batch size, num classes] labels: [batch size], 必须 在 [0, num classes] 
* 输出 : loss [batch size]， 里 面 保存 是 batch rp RET FEAKIBIAE SCR 














4.7.5 ”优化 方法 


如 何 加 速 神经 网 络 的 训练 呢 ?” 目 前 加 速 训练 的 优化 方法 基本 都 是 基于 梯度 下 降 的 ， 只 是 
节 上 有 些 差异 。 梯 度 下 降 是 求 函 数 极 值 的 一 种 方法 ， 学 习 到 最 后 就 是 求 损失 函数 的 极 值 问题 。 
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TensorFlow 提供 了 很 多 优化 器 (optimizer)， 我 们 重点 介绍 下 面 这 8 个 : 





Ooooo oo oa 




















lass tf.train.GradientDescentOptimizer 
lass tf.train.AdadeltaOptimizer 

lass tf.train.AdagradOptimizer 

lass tf.train.AdagradDAOptimizer 

lass tf.train.MomentumOptimizer 

lass tf.train.AdamOptimizer 

lass tf.train.FtrlOptimizer 

lass tf.train.RMSPropOptimizer 


ix 8 个 优化 器 对 应 8 种 优化 方法 , 分别 是 梯度 下 降 法 (BGD 和 SGD), Adadelta 1X. Adagrad 
法 CAdagrad 和 AdagradDAO), Momentum 法 (Momentum 和 Nesterov Momentum), Adam, 
Ftrl 法 和 RMSProp 法 ， 其 中 BGD、SGD、Momentum 和 Nesterov Momentum 是 手动 指定 学 习 
率 的 ， 其 余 算法 能 够 自动 调节 学 习 率 。 

下 面 就 介绍 其 中 几 种 优化 方法 。 




















1. BGD 法 


BGD 的 全 称 是 batch gradient descent， 即 批 梯度 下 降 。 这 种 方法 是 利用 现 有 参数 对 训练 集 
中 的 每 一 个 输入 生成 一 个 估计 输出 y;， 然 后 跟 实际 输出 六 比较 ， 统 计 所 有 误差 ， 求 平均 以 后 得 





到 平均 误差 ， 以 此 


























nr 























FE 为 更 新 参数 的 依据 。 它 的 迭代 过 程 为 : 





(1) 提取 训练 集中 的 所 有 内 容 {x1,…, x} ， 以 及 相关 的 输出 y 


(2) 计算 梯度 和 








[误差 并 更 新 参数 。 

















这 种 方法 的 优点 是 , 使 用 所 有 训练 数据 计算 ， 能 够 保证 收敛 ,并且 不 需要 逐渐 减少 学 习 率 ; 















































缺点 是 ， 步 都 需要 使 用 所 有 的 训练 数据 ， 随 着 训练 的 进行 ， 速 度 会 越 来 越 慢 。 






























































| 练 数据 拆 分 成 一 个 个 批 次 batch)， 每 次 抽取 一 批 数据 来 更 新 参数 ， 是 不 











是 会 加 速 训 练 呢 ? 这 就 是 最 常用 的 SGD. 





2. SGD 法 
SGD 的 全 称 是 stochastic gradient descent， 即 随机 梯度 下 降 。 因 为 这 种 方法 的 主要 思想 是 将 








数据 集 拆 分 成 一 个 个 批 次 (batch)， 随 机 抽取 一 个 批 次 来 计算 并 更 


(minibatch gradient descent), 


SGD 在 每 一 次 迭代 计算 mini-batch 的 梯度 ， 然 后 对 参数 进行 更 新 。 与 BGD 相 比 ，SGD 在 





训练 数据 集 很 大 时 ， 














(1) 由 于 抽取 不 可 吉 免 地 梯度 会 有 误差 ， 需 要 手动 调整 学 习 率 Meaning rate)， 但 是 选择 
适 的 学 习 率 又 比较 困难 。 尤 其 在 训练 时 ， 我 们 常常 想 对 常 出 现 的 特征 更 新 速度 快 一 些 ， 而 对 
常 出 现 的 特征 更 新 速度 慢 -一些 ， 而 SGD 在 更 新 参数 时 对 所 有 参数 采用 一 样 的 学 习 率 ， 因 此 

















zm 








[参数 ， 所 以 也 称 为 MBGD 





























仍 能 以 较 快 的 速度 收敛 。 但 是 ， 它 仍然 会 有 下 面 两 个 缺点 。 
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无 法 满足 要 求 。 
(2) SGD 容易 收 合 到 局 部 最 优 ， 并 旦 在 某 些 情况 下 可 能 被 困 在 鞍点 。 
为 了 解决 学 习 率 固定 的 问题 ， 又 引入 了 Momentum 法 。 


















































3. Momentum 法 





























Momentum 是 模拟 物理 学 中 动量 的 概念 ， 更 新 时 在 一 定 程度 上 保留 之 前 的 更 新 方向 ， 利 用 
当前 的 批 次 再 微调 本 次 的 更 新 参数 ， 因 此 引入 了 一 个 新 的 变量 v (速度 )， 作 为 前 几 次 梯度 的 累 
Ho KJE, Momentum 能 够 更 新 学 习 率 ， 在 下 降 初期 ， 前 后 梯度 方向 一 致 时 ， 能 够 加 速 学 习 ; 
在 下 降 的 中 后 期 ， 在 局 部 最 小 值 的 附近 来 回 震荡 时 ， 能 够 抑制 震荡 ， 加 快 收敛 。 
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4. Nesterov Momentum 法 





Nesterov Momentum 法 由 Ilya Sutskever 在 Nesterov 工作 的 启发 下 提出 的 ， 是 对 传统 Momentum 
法 的 一 项 改进 ， 其 基本 思路 如 图 4-6 所 示 。 





























_ -一 一 -一 -1 号 线 标准 的 Momentum 
M 一 一 2 号 线 跳跃 
D n uu. — 3 号 线 有 待 修正 的 梯度 
人 一 -一 4 号 线 累积 梯度 
图 4-6" 











标准 Momentum 法 首先 计算 一 个 梯度 〈 短 的 1 号 线 )， 然 后 在 加 速 更 新 梯度 的 方向 进行 一 
个 大 的 跳跃 (长 的 1 号 线 ); Nesterov 项 首先 在 原来 加 速 的 梯度 方向 进行 一 个 大 的 跳跃 (2 号 线 )， 
然后 在 该 位 置 计 算 梯度 值 (3 号 线 )， 然 后 用 这 个 梯度 值 修正 最 终 的 更 新 方向 CA. 号 线 )。 
上 面 介 绍 的 优化 方法 都 需要 我 们 自己 设 定 学 习 率 ， 接 下 来 介绍 几 种 自 适 应 学 习 率 的 优化 
方法 。 

















































































































5. Adagrad 法 








Adagrad 法 能 够 自 适 应 地 为 各 个 参数 分 配 不 同 的 学 习 率 ， 能 够 控制 每 个 维度 的 梯度 方向 。 
这 种 方法 的 优点 是 能 够 实现 学 习 率 的 自动 更 改 : 如 果 本 次 更 新 时 梯度 大 ， 学 习 率 就 衰减 得 快 
H6. 如果 这 次 更 新 时 梯度 小 ， 学 习 率 衰减 得 就 慢 一 些 。 
























































6. Adadelta 法 











Adagrad 法 仍然 存在 一 些 问题 : 其 学 习 率 单调 递减 ， 在 训练 的 后 期 学 习 率 非 常 小 ， 并 且 需 























(D 本 图 出 自 Geoffrey Hinton 的 Coursera 公开 课 “Neural Networks for Machine Learning" 45 6 章 : https://www.coursera.org/ 
learn/neural-networks. 
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要 手动 设置 一 个 全 局 的 初始 学 习 率 。Adadelta 法 用 一 阶 的 方法 ， 近 似 模拟 二 阶 牛 顿 法 ， 解 决 了 
这 些 问 题 。 

7. RMSprop 法 

RMSProp 法 与 Momentum 法 类 似 ， 通 过 引入 一 个 衰减 系数 ， 使 每 一 回合 都 衰减 一 定 比 例 。 
在 实践 中 ， 对 循环 神经 网 络 (RNN ) 效果 很 好 。 


针对 每 个 参数 的 梯度 的 一 阶 和 


























8. Adam 法 





Adam 的 名 称 来 源 于 自 适 应 矩 估 计 ” (adaptive moment estimation), Adam 法 根据 损失 函数 
E 估 计 和 二 阶 矩 估计 动态 调整 每 个 参数 的 学 习 率 。 








9. 各 个 方法 的 比较 





上 用 上 述 几 个 优化 器 做 了 一 些 性 能 比较 ， 发 现 如 下 规律 :在 不 


Karpathy 在 MNIST 数据 


























怎么 调整 参数 的 情况 下 ，Adagrad 法 比 SGD 法 和 Momentum 法 更 稳定 ， 性 能 更 优 ; 精 调 参 数 的 
情况 下 ， 精 调 的 SGD 法 和 Momentum 法 在 收敛 速度 和 准确 性 上 要 优 于 Adagrad 法 。 





























各 个 优化 器 的 损失 值 比较 结果 如 图 4-7 所 示 。 





















—— sgd | 
一 一 sgd+momentum _| 
——— adagrad 

——— windowgrad 

一 一 adadelta 
nesterov 
























































Ok 


3.2k 6.4k 12.8k 16k 


图 4-7 


22.4k 25.6k 28.8k 32k 
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和 矩 估计 就 是 利用 样本 和 矩 来 估计 总 体 中 相应 的 参数 。 如 果 一 个 随机 变量 邓 服 从 某 种 分 布 ， 邓 的 一 阶 矩 是 ECX)， 也 就 
是 样本 平均 值 ， WEE ECX2)， 也 就 是 样本 平方 的 平均 值 。 
这 一 绪论 和 图 4-7 至 图 4-9 参考 http://sebastianruder.com/optimizing-gradient-descent/。 
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各 个 优化 器 的 测试 准确 率 比 较 如 图 4-8 所 示 。 
0.88 T 
—— sgd 
0.8 — — sgd--momentum . | 
——— adagrad 
ARS y —— windowgrad 
0.72 e, PY — — adadelta 
0.64 nesterov 
0.57 
0.49 
0.41 
0.33 
0.26 
0.18 
0.1 
Ok 9 3298 9 94k 9 9.6k 12.8k 16k 19.2k 22.4k 25.6k 28.8k 32k 
图 4-8 
各 个 优化 器 的 训练 准确 率 比 较 如 图 4-9 所 示 。 
0.92 - 
—— sgd 
— —— sgd* momentum , | 
osa ——— adagrad 
一 windowgrad 
03 一 一 adadelta 
0.68 nesterov 
0.6 
0.52 
0.44 
0.36 
0.29 
0.21 
0.13 
Ok 32k 6.4k 9.6k 12.8k 16k 19.2k 22.4k 25.6k 28.8k 32k 
图 4-9 





想 要 更 深入 研究 各 种 优化 方法 ， 可 以 参考 《An overview of gradient descent optimization 


algorithms》 e 





(D http://sebastianruder.com/optimizing-gradient-descent/ 
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4.8 模型 的 存储 与 加 载 


训练 好 一 个 神经 网 络 模型 后 ， 我 们 就 希望 能 够 将 其 应 用 在 预测 数据 上 。 那 么 ， 如 何 把 模型 存储 
起 来 呢 ? 同时 ， 对 于 一 个 已 经 存储 起 来 的 模型 ， 在 将 其 应 用 在 预测 数据 上 时 又 如 何 加 载 呢 ? 

TensorFlow 的 API 提供 了 以 下 两 种 方式 来 存储 和 加 载 模型 。 

(1) 生成 检查 点 文件 Ccheckpoint file)， 扩 展 名 一 般 为 .ckpt， 通 过 在 tf.train.Saver 对 象 上 调 
] Saversave0 生 成 。 它 包含 权重 和 其 他 在 程序 中 定义 的 变量 ， 不 包含 图 结构 。 如 果 需 要 在 另 
个 程序 中 使 用 ， 需 要 重新 创建 图 形 结构 ， 并 告诉 TensorFlow 如 何 处 理 这 些 权重 。 

(2) 生成 图 协议 文件 (graph proto file )， 这 是 一 个 二 进 制 文件 ， 扩 展 名 一 般 为 .pb， 用 
ttrain.write_graph() 保 存 ， 只 包含 图 形 结构 ,不 包含 权重 ,然后 使 用 给 import_graph_def0) 来 加 载 
图 形 。 

下 面 我 们 就 分 “模型 存储 ”和 “图 存储 ”来 介绍 这 两 种 方式 。 在 TensorFlow 的 高 级 API, 
如 Keras 中 ， 也 提供 了 更 高 级 的 语句 来 保存 和 加 载 模型 ， 在 7.2.3 节 中 会 介绍 。 

















































































































































































































































































































4.8.1 ”模型 的 存储 与 加 载 

模型 存储 主要 是 建立 一 个 tftrain.Saver() 来 保存 变量 
展 名 为 .ckpt。 

下 面 我 们 定义 一 个 新 的 神经 网 络 ， 含 两 个 全 连接 层 和 一 个 输出 层 ， 来 训练 MNIST 数据 得 
并 把 训练 好 的 模型 存储 起 来 。 我 们 用 MNIST 数据 集 来 说 明 。” 




















并 且 指 定 保存 的 位 置 ， 一 般 模型 的 扩 





















































Tint 


















































1. 加 载 数据 及 定义 模型 








加 载 数据 及 定义 模型 的 代码 如 下 : 


# 加 载 数据 

mist = input data.read data sets ("MNIST data/", one hot=True) 

trX, trY, teX, teY = mnist.train.images, mnist.train.labels, mnist.test.images, 
mnist.test.labels 


X = tf.placeholder("float", [None, 784]) 
Y = tf.placeholder("float", [None, 10] 
# 初始 化 权重 参数 





wh = init weights([784, 625]) 

















© 本 节 代 码 参 考 https://github.com/nlintz/TensorFlow-Tutorials/blob/master/10 save restore netpys Jy T WENE, XX 
里 对 代码 顺序 略微 做 了 调整 。 
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w h2 = init weights([625, 625]) 
wo = init weights([625, 10]) 


# 定义 权重 函数 
def init weights (shape): 





return tf.Variable(tf.random normal (shape, stddev-0.01) 


# 定义 模型 
def model(X, w h, w h2, w o, p keep input, p keep hidden): 


第 一 个 全 连接 层 














X = tf.nn.dropout(X, p keep input) 
.nn.relu(tf.matmul(X, w h)) 


ll 
dt 
Fh 


n 


f.nn.dropout (h, p_keep hidden) 
个 全 连接 层 
.nn.relu(tf.matmul(h, w h2)) 


.nn.dropout(h2, p keep hidden) 

















return tf.matmul(h2, w o) # 输 出 预测 值 


生成 网 络 模型 ， 得 到 预测 值 ， 代 码 如 下 : 








p_keep input = tf.placeholder ("float") 
p_keep hidden = tf.placeholder ("float") 
py x = model(X, w h, w h2, w o, p keep input, p keep hidden) 


定义 损失 函数 ， 代 码 如 下 : 


cost = tf.reduce mean(tf.nn.softmax cross entropy with logits (py x, Y)) 
train op - tf.train.RMSPropOptimizer(0.001, 0.9).minimize (cost) 
predict op = tf.argmax(py x, 1) 


接 下 来 我 们 就 要 训练 刚才 定义 好 的 模型 ， 并 把 每 一 轮训 练 得 到 的 参数 都 存储 下 来 。 





Li 








2. 训练 模型 及 存储 模型 


























首先 ， 我 们 定义 一 个 存储 路 径 ， 这 里 就 用 当前 路 径 下 的 ckpt dir 目录， 代码 如 下 ; 
ckpt dir = "./ckpt dir" 


if not os.path.exists(ckpt dir): 
os.makedirs(ckpt dir) 


定义 一 个 计数 器 ， 为 训练 轮 数 计 数 ， 代 码 如 下 : 








# 计数 器 变量 ， 设 置 它 的 trainable=False， 不 需要 被 训练 

global step = tf.Variable(0, name-'global step', trainable-False) 

当 定 义 完 所 有 变量 后 ， 调 用 给 train.Saver() 来 保存 和 提取 变量 ， 其 后 面 定 义 的 变量 将 不 会 被 
存储 ， 代 码 如 下 : 








N 






































# 在 声明 完 所 有 变 











3i 
A 
Ti 


后 ， 调 用 tf.train.Saver 


saver = tf.train.Saver() 














* 位 于 tf.train.Saver 之 后 的 变量 将 不 会 被 存储 
non storable variable = tf.Variable(777) 


训练 模型 并 存储 ， 如 下 : 








with tf.Session() 


as Sess: 


tf.initialize all variables ().run() 


Start = global step.eval() 


* 得 到 global step 的 初始 值 


print("Start from:", start) 


for i in range(start, 


# [1128 {E} batch size 
for start, end in zip(range(0, len(trX), 128), range(128, 


sess.run(train op, 


p keep input: 


100): 


0.8, 


global step.assign(i).eval() 


saver.save(sess, ckpt dir + "/mod 


p keep hidden: 0.5]) 


# 更 新 计数 器 
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len(trX)-*1, 128)): 


feed dict-(X: trX[start:end], Y: trY[start:end], 


el.ckpt", global step-global step) 4 存储 模型 


于 是 ， 在 训练 的 过 程 中 ，ckpt_dir 下 会 出 现 16 个 文件 ， 其 中 有 5 个 model.ckpt- (nj .data- 


00000-of-00001 文件 ， 是 训练 过 程 中 保存 的 模型 ，5 个 model.ckpt-{n}.meta 文件 ， 是 训练 过 程 中 
保存 的 元 数据 (TensorFlow 默认 只 保存 最 近 5 个 模型 和 元 数据 ， 删 除 前 面 没 用 的 模型 和 元 







































































数据 )，5 个 model.ckpt-(nj.index 文件 ，{n} 代 表达 代 次 数 ， 以 及 1 个 检查 点 文本 文件 ， 里 面 保 
存 着 当前 模型 和 最 近 的 5 个 模型 ， 内 容 如 下 : 











model checkpoi 
all model chec 
all model chec 
all model chec 
all model chec 
all model chec 


那么 ， 假 如 在 训 
不 是 就 要 从 涉 开始 1 


nt path: "model.ckpt-60" 


kpoint paths: 
kpoint paths: 
kpoint paths: 
kpoint paths: 
kpoint paths: 


练 某 个 模型 时 突然 因为 某 种 原因 ， 脚 本 停止 运行 了 ， 
| 练 呢 ? 我 们 知道 ， 训 练 一 个 神经 网 络 的 时 间 都 比较 长 ， 少 则 几 个 小 时 ， 


"model. 
"model. 
"model 
"model. 
"model. 


Ckpt-56" 
kpt-57" 


kpt-59" 





e 
.Ckpt-58" 
e 
c 


kpt-60" 




















或 者 机 器 重启 了 ， 是 








多 则 几 天 ， 甚 至 儿 周 。 如 果 能 将 之 前 训练 的 参数 保存 下 来 ， 就 可 以 在 出 现 意外 状况 时 接着 





上 一 次 的 地 方 开始 j 





怎么 样 。 


3. 加载 模 型 











| 练 。 此 外 ， 每 个 固定 的 轮 数 在 检查 点 保存 一 个 模型 
利于 随时 将 模型 拿 出 来 进行 预测 ， 用 前 儿 次 的 预测 效果 就 可 以 估计 出 * 




















(.ckpt 文件 )， 也 有 


申 经 网 络 究 竟 设 计 得 








如 果 有 已 经 训练 好 的 模型 变量 文件 ， 可 以 用 saver.restore 来 进行 模型 加 载 : 
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with tf.Session() as sess: 
tf.initialize all variables () .run() 


Ckpt - tf.train.get checkpoint state(ckpt dir) 

if ckpt and ckpt.model checkpoint path: 
print(ckpt.model checkpoint path) 
saver.restore(sess, ckpt.model checkpoint path) # 加 载 所 有 的 参数 
# 从 这 里 开始 就 可 以 直接 使 用 模型 进行 预测 ， 或 者 接着 继续 训练 了 















































4.8.2 ”图 的 存储 与 加 载 
当 仅 保存 图 模型 时 ， 才 将 图 写 入 二 进 制 协 议 文件 

















, 例 如 : 





























v = tf.Variable(0, name-2'my variable") 


Sess = tf.Session() 
tf.train.write graph(sess.graph def, '/tmp/tfmodel', 'train.pbtxt') 





当 读 取 时 ， 又 从 协议 文件 中 读 取出 来 : 


with tf.Session() as sess: 
with gfile.FastGFile("/tmp/tfmodel/train.pbtxt",'rb') as f: 
graph def - tf.GraphDef() 
graph def.ParseFromString(f.read()) 
 Ssess.graph.as default () 
tf.import graph def(graph def, name-'tfgraph') 


4.9 队列 和 线程 


和 TensorFlow 中 的 其 他 组 件 一 样 ， 队 列 (queue) 本 身 也 是 图 中 的 一 个 节点 ， 是 一 种 有 状 
态 的 节点 ， 其 他 节点 ， 如 入 队 节 点 Cenqueue) 和 出 队 节 点 (dequeue)， 可 以 修改 它 的 内 容 。 例 
如 ， 入 队 节点 可 以 把 新 元 素 播 到 队列 末尾 ， 出 队 节 点 可 以 把 队列 前 面 的 元 素 删除 。 本 节 主 要 介 
绍 队列 、 队 列 管 理 器 、 线 程 和 协调 器 的 有 关 知 识 。 





































































































4.9.1 ”队列 


TensorFlow 中 主要 有 两 种 队列 , 即 FIFOQueue 和 RandomShuffleQueue, 它们 的 源 代码 实现 
在 tensorflow-1.1.0/tensorflow/python/ops/data flow ops.py 中 。 














1. FlFOQueue 




















FIFOQueue 创建 一 个 先入 先 出 队列 。 例 如 ， 我 们 在 训练 一 些 语音 、 文 字样 本 时 ， 使 用 循环 
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> 


经 网 络 的 网 络 结构 ， 和 希望 读 入 的 训练 样本 是 有 序 的 ， 就 要 用 FIFOQueue。 关 于 循环 神经 网 络 
的 讲解 参见 9.5 节 。 
我 们 先 创 建 一 个 含有 队列 的 图 : 





























import tensorflow as tf 





* 创建 一 个 先入 先 出 队列 ,初始 化 队列 插入 0.1、0.2、0.3 三 个 数字 
q = tf.FIFOQueue(3, "float") 

init = q.enqueue many(([0.1, 0.2, 0.3],)) 

# 定义 出 队 、+1、 入 队 操 作 

x = q.dequeue() 

y=x+1 

q_inc = q.enqueue ([y]) 


然后 开启 一 个 会 话 ， 执 行 2 次 q_inc 操作 ， 随 后 查看 队列 的 内 容 : 








with tf.Session() as sess: 
sess.run(init) 
quelen = sess.run(q.size()) 
for i in range (2): 
sess.run(q inc) # 执行 2 次 操作 ， 队 列 中 的 值 变 为 0.3,1.1,1.2 








quelen = sess.run(q.size()) 
for i in range (quelen): 
print (sess.run(q.dequeue())) # 输出 队列 的 值 
最 终结 果 如 下 


2. RandomShuffleQueue 














RandomShuffleQueue 创建 一 个 随机 队列 , 在 出 队列 时 , 是 以 随机 的 顺序 产生 元 素 的 。 例 如 ， 
我 们 在 训练 一 些 图 像样 本 时 ， 使 用 CNN 的 网 络 结构 ， 和 希望 可 以 无 序 地 读 入 训练 样本 ， 就 要 用 
RandomShuffleQueue， 每 次 随机 产生 一 个 训练 样本 。 关 于 CNN 的 实战 讲解 参见 第 10 章 。 

RandomShuffleQueue 在 TensorFlow 使 用 异步 计算 时 非常 重要 。 因 为 TensorFlow 的 会 话 是 
文 持 多 线程 的 ， 我 们 可 以 在 主线 程 里 执行 训练 操作 ， 使 用 RandomShuffleQueue 作为 训练 输入 ， 
开 多 个 线程 来 准备 训练 样本 ， 将 样本 压 入 队列 后 ， 主 线程 会 从 队列 中 每 次 取出 mini-batch 的 样 
本 进行 训练 。 详 细 的 例子 将 在 4.10 节 中 详细 讲解 。 


下 面 我 们 创建 一 个 随机 队列 ， 队 列 最 大 长 度 为 10， 出 队 后 最 小 长 度 为 2: 
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q = tf.RandomShuffleQueue(capacity-10, min after dequeue-2, dtypes-"float") 
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然后 开启 一 个 会 话 ， 执 行 10 次 入 队 操作 ，8 次 出 队 操作 : 


sess = tf.Session() 
for i in range(0, 10): 410 次 入 队 


sess.run(q.enqueue (i)) 


for i in range(0, 8): # 8 次 出 队 
print (sess.run(q.dequeue())) 


发 现 结果 确实 是 乱 序 的 : 


WN Ono 
O ooo 





我 们 尝试 修改 入 队 次 数 为 12 次 ， 再 运行 ， 发 现 程 序 阻 断 不 动 ， 或 者 我 们 尝试 修改 出 队 此 
时 为 10 次 ， 即 不 保留 队列 最 小 长 度 ， 发 现 队 列 输出 8 次 结果 后 ， 在 终端 仍然 阻 断 了 。 现 象 如 
图 4-10 所 示 ， 在 箭头 处 卡 在 不 动 。 这 种 情况 称 为 阻 断 。 






































i 








test git:( ) x python queue.py 
W tensorflow/core/platform/cpu. feature guard.cc:95] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CP 
U computations. 
W tensorflow/core/platform/cpu. feature guard.cc:95] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU c 
omputations. 
W tensorflow/core/platform/cpu. feature guard.cc:95] The TensorFlow library wasn't compiled to use AVX2 instructions, but these are available on your machine and could speed up CPU 
computations. 
W tensorflow/core/platform/cpu. feature guard.cc:95] The TensorFlow library wasn't compiled to use FMA instructions, but these are available on your machine and could speed up CPU c 
omputations. 
10 
3.0 











阻 断 一 般 发 生 在 : 


e 队列 长 度 等 于 最 小 值 ， 执 行 出 队 操 作 ， 
e 队列 长 度 等 于 最 大 值 ， 执 行 入 队 操作 。 


只 有 队列 满足 要 求 后 , 才能 继续 执行 。 可 以 通过 设置 绘画 在 运行 时 的 等 待 时 间 来 解除 阻 断 : 




















run options = tf.RunOptions (timeout in ms = 10000) # 等 待 10 db 
try: 

sess.run(q.dequeue(), options-run options) 
except tf.errors.DeadlineExceededError: 

print('out of range') 
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上 面 的 例子 都 是 在 会 话 的 主线 程 中 进行 入 队 操作 。 当 数据 量 很 大 时 ， 入 队 操作 从 硬盘 中 读 
取 数 据 ， 放 入 内 存 中 ， 主 线程 需要 等 竺 入 队 操作 完成 ， 才 能 进行 训练 操作 。 会 话 中 可 以 运行 多 
个 线程 ， 我 们 使 用 线程 管理 器 QueueRunner 创建 一 系列 的 新 线程 进行 入 队 操作 ， 让 主线 程 继续 
使 用 数据 ， 即 训练 网 络 和 读 取 数 据 是 异步 的 ， 主 线程 在 训练 网 络 ， 另 一 个 线程 在 将 数据 从 硬盘 
读 入 内 存 。 



















































































49.2 ”队列 管理 器 
我 们 创建 一 个 含有 队列 的 图 : 











q = tf.FIFOQueue(1000, "float") 

counter - tf.Variable(0.0) # 计数 器 
increment op = tf.assign add(counter, tf.constant(1.0)) # 操作 :给 计数 器 加 1 
enqueue op = q.enqueue(counter) # 操作 : 计数 器 值 加 入 队列 


创建 一 个 队列 管理 器 QueueRunner， 用 这 两 个 操作 向 队列 q 中 添加 元 素 。 目 前 我 们 只 使 用 
一 个 线程 : 










































































qr = tf.train.QueueRunner(q, enqueue ops-[increment op, enqueue op] * 1) 


启动 一 个 会 话 ， 从 队列 管理 器 qr 中 创建 线程 





























# 主 线程 

with tf.Session() as sess: 
sess.run(tf.global variables initializer() 
enqueue threads = qr.create threads(sess, start-True) # 启动 入 队 线程 
# 主 线程 


for i in range(10): 











print (sess.run(q.dequeue())) 


输出 结果 如 下 : 





4.0 
9.0 
12. 
15 
18. 
22 
254 
21 
32. 
35. 


不 是 我 们 期 待 的 自然 数列 ， 并 且 线 程 被 阻 断 。 这 是 因为 加 1 操作 和 入 队 操 作 不 同步 ， 可 能 
加 1 操作 执行 了 很 多 次 之 后 ， 才 会 进行 一 次 入 队 操作 。 另 外 ， 因 为 主线 程 的 训练 〈 出 队 操 作 ) 
和 读 取 数据 的 线程 的 训练 入 队 操作 ) 是 异步 的 ， 主 线程 会 一 直 等 待 数据 送 入 。 


OOo O0 c0ccccou 
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QueueRunner 有 一 个 问题 就 是 ， 入 队 线程 自 顾 自 地 执行 ， 在 需要 的 出 队 操作 完成 之 后 ， 程 
序 没 法 结束 。 这 样 就 要 使 用 tftrain.Coordinator 来 实现 线程 间 的 同步 ， 终 止 其 他 线程 。 









































4.9.3 ”线程 和 协调 器 
使 用 协调 器 〈coordinator ) 来 管理 线程 : 






































# 主线 程 
sess = tf.Session() 
sess.run(tf.global variables initializer() 









































* Coordinator: 协调 器 ， 协 调 线程 问 的 关系 可 以 视 为 一 种 信号 量 ， 用 来 做 同步 


coord = tf.train.Coordinator() 





# 局 动 入 队 线程 ， 协 调 器 是 线程 的 参数 











enqueue tHreads = qr.create_threads (sess, coord = coord,start-Irue) 


# 主线 程 


for i in range(0, 10): 





print(sess.run(q.dequeue())) 











coord.request stop ()# 通知 其 他 线程 关闭 

















coord.join(enqueue threads) 4 join 操作 等 待 



































他 线程 结束 ， 其 他 所 有 线程 关闭 之 后 ， 这 一 函数 才能 返回 


发 现 上 述 代 码 能 正常 运行 ， 返 回 结果 ， 并 结束 。 但 我 们 发 现 ， 在 关闭 队列 线程 后 ， 再 执行 
出 队 操 作 ， 就 会 抛 出 tferrors.OutOfRange 错误 。 把 coord.request stop0 和 主线 程 的 出 队 操作 


























qd.dequeueO 调 换 位 置 ， 如 下 ; 
coord.request stop() 


# 主线 程 


for i in range(0, 10): 





print (sess.run(q.dequeue())) 


coord.join(enqueue threads) 






































这 种 情况 就 需要 使 用 tf.errors.OutOfRangeError 来 捕 








捉 错 误 ， 终 止 循环 : 





coord.request stop() 


# 主线 程 


for i in range(0, 10): 





try: 
print(sess.run(q.dequeue())) 
except tf.errors.OutOfRangeError: 
break 


coord.join(enqueue threads) 

















所 有 队列 管理 器 被 默认 加 在 














4.10 加载 数据 
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KIRI t£.GraphKeys.QUEUE RUNNERS 集合 





TensorFlow 官方 网 站 给 出 了 























Ds 


TensorFlow 作为 符号 编程 框架 ， 需 要 先 构 建 数据 流 图 ， 再 读 取 数据 ， 随 后 进行 模型 训练 。 

以 下 读 取 数据 3 种 方法 。 

e 预 加 载 数据 (preloaded data): 在 TensorFlow 图 中 定义 常量 或 变量 来 保存 所 有 数据 。 

e 填充 数据 〈feeding)， Python 产生 数据 ， 再 把 数据 填充 后 端 。 

。 从 文件 读 取 数据 reading from file): 从 文件 中 直接 读 取 ， 让 队列 管理 器 从 文件 
数据 。 
































































































































读 取 











4.10.1 nex 





预 加 载 数据 的 示例 如 下 : 


x1 = tf.constant([2, 
tf.constant([4, 


y = tf.add(xl, x2) 


这 种 方式 的 缺点 在 于 ， 将 数据 直接 和 嵌 在 数据 流 图 


3, 
0, 


4]) 
1]) 


x2 = 














TERME. 





， 当 训练 数据 较 大 时 ， 很 消 


























4.10.2 ”填充 数据 


销 。 这 时 最 好 

















使 











的 feed_dict 参数 ， 将 Python 产生 的 数据 填充 给 后 端 。 








] sess.run()! 








import tensorflow as tf 

# 设计 图 

al = tf.placeholder(tf.intl16) 
tf.placeholder(tf.int16) 

tf.add(x1, x2) 

* 用 Python 产生 数据 

lil = [2, 3, 4] 

li2 = [4, 0, 1] 

# 打开 一 个 会 话 ， 将 数据 填充 给 后 端 

with tf.Session() 
print sess.run(b, feed dict-í[(al: 


填充 的 方式 也 有 数据 量 大 、 消 耗 内 存 等 缺点 ， 
第 三 种 方法 ， 在 图 中 定义 好 文件 读 取 的 方法 ， 让 TensorFlow 上 自己 从 文件 : 


a2 = 



































as sess: 
Ll 


诈 且 数据 类 型 转换 等 中 间 环节 增加 了 不 小 开 
读 取 


1i2]) 










































































(D https://www.tensorflow.org/versions/r0.10/how tos/reading data/Zpreloaded data 
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数据 ， 并 解码 成 可 使 用 的 样本 集 。 








4.10.3 ”从 文件 读 取 数据 
从 文件 读 取 数 据 分 为 如 下 两 个 步 又; 


(1) 把 样本 数据 写 入 TFRecords 二 进 制 文件 




















(2) 再 从 队列 中 读 取 。 
我 们 以 MNIST 数据 集 为 例 来 说 明 ， 如 何 把 MNIST 的 数据 转换 成 TFRecords 文件 。 











H 


























TFRecords 是 一 种 二 进 制 文件 ， 能 更 好 地 利用 内 存 ， 更 方便 地 复制 和 移动 ， 并 且 不 需要 单独 的 
标记 文件 。 接 下 来 我 们 就 看 一 下 如 何 转 换 ， 有 具体 代码 参见 tensorflow-1.1.0/tensorflow/examples/ 
how tos/reading data/convert to records.py. 


1 


















































. 生成 TFRecords 文件 





我 们 定义 主 函 数 ， 给 训练 、 验 证 、 测 试 数据 集 做 转换 : 


d 


转换 函数 convert to 的 主要 功能 是 ， 将 


buffer) 
文件 。 





ef main(unused argv): 

# 获取 数据 

data sets = mnist.read data sets (FLAGS.directory, 
dtype-tf.uint8, 4 注意 ， 这 里 的 编码 是 uint8 
reshape=False, 
validation size=FLAGS.validation size) 








# 将 数据 转换 为 tf.train.Example 类 型 ， 并 写 入 TFRecords 文件 
convert to(data sets.train, 'train') 

convert to(data sets.validation, 'validation') 
convert Lto(data sets.test, 'test') 











数据 填 入 到 t£train.Example 的 协议 缓冲 区 (protocol 
tB, Mit t£python io.TFRecordWriter 写 入 TFRecords 

















H 
H 








'， 将 协议 缓冲 区 序列 化 为 一 个 字符 





def convert to(data set, name): 


images - data set.images 
labels = data set.labels 
num examples = data set.num examples 4 55000 个 训练 数据 ，5000 个 验证 数据 ，10000 个 测试 数据 





if images.shape[0] != num examples: 
raise ValueError('Images size $d does not match label size $d.' $ 
(images.shape[0], num examples)) 
rows = images.shape[1] # 28 
cols = images.shape[2] # 28 
depth = images.shape[3] # 1， 是 黑白 图 像 ， 所 以 是 单 通道 
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filename = os.path.join(FLAGS.directory, name + '.tfrecords') 
print('Writing', filename) 
writer = tf.python io.TFRecordWriter(filename) 


for index in range (num examples): 
image raw - images[index].tostring() 














# 写 入 协议 缓冲 区 中 ，height、width、depth、label 编码 成 int64 28789, image raw 编码 成 二 进 制 
example = tf.train.Example(features-tf.train.Features(feature-[( 





'height':  int64 feature (rows), 

'width':  int64 feature (cols), 

'depth':  int64 feature (depth), 

'label': int64 feature (int (labels [index])), 
'image raw': bytes feature(image raw)])) 


writer.write(example.SerializeToString )) # 序列 化 为 字符 串 


writer.close() 
编码 函数 如 下 : 


def int64 feature (value): 
return tf.train.Feature(int64 list-tf.train.Int64List(value-[value])) 


def bytes feature (value): 
return tf.train.Feature(bytes list-tf.train.BytesList(value-[value])) 








运行 结束 后 ， 在 /tmp/data 下 生成 3 个 文件 ， 即 train.tfrecords, validation.tfrecords 和 test.tfrecords 。 





2. 从 队列 中 读 取 

















Tr 











一 旦 生成 了 TFRecords 文件 ， 接 下 来 就 可 以 使 用 队列 读 取 数 据 了 。 主 要 分 为 3 步 : 

(1) 创建 张 量 ， 从 二 进 制 文件 读 取 一 个 样本 ; 

(2) 创建 张 量 ， 从 二 进 制 文件 随机 读 取 一 个 mini-batch; 

(3) 把 每 一 批 张 量 传 入 网 络 作为 输入 节点 。 

代码 参见 tensorflow-1.1.0/tensorflow/examples/how tos/reading data/fully connected reader.py. 


首先 我 们 定义 从 文件 中 读 取 并 解析 一 个 样本 : 





















































def read and decode (filename queue): # 输入 文件 名 队列 
reader = tf.TFRecordReader() 
., Serialized example = reader.read(filename queue) 
features = tf.parse single example( # 解析 example 
serialized example, 
* 必须 写 明 features 里 面 的 key 的 名 称 
features-( 
'image raw': tf.FixedLenFeature([], tf.string), # 图 片 是 string 类 型 
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'label': tf.FixedLenFeature([], tf.int64), # 标记 是 int64 类 型 
} 
对 于 BytesList， 要 重新 进行 解码 ， 把 string 类 型 的 0 4E Tensor 变 成 uint8 类 型 的 一 维 Tensor 
image = tf.decode raw(features['image raw'], tf.uint8) 
image.set shape([mnist.IMAGE PIXELS]) 
Tensor("input/DecodeRaw:0", shape-(784,), dtype-uint8) 






































image 张 量 的 形状 为 : Tensor("input/sub:0", shape-(784,), dtype-float32) 
image = tf.cast(image, tf.float32) * (1. / 255) - 0.5 





把 标记 从 uint8 类 型 转换 为 int32 类 型 
label 张 量 的 形状 为 Tensor ("input/Cast 1:0", shape-(), dtype-int32) 
label = tf.cast(features['label'], tf.int32) 























return image, label 














接 下 来 使 用 t£.train.shuffle batch Xf gj Tf 











E 


成 的 样本 随机 化 ， 获 得 一 个 最 小 批 次 的 张 量 : 











I 


mi 











def inputs (train, batch size, num epochs): 


# 输入 参数 : 

# train: 选择 输入 训练 数据 /验证 数据 

# batch size: 训练 的 每 一 批 有 多 少 个 样本 

* num epochs: 过 几 志 数据， 设置 为 0/None 表示 永远 训练 下 去 


mm 





返回 结果 : A tuple (images, labels) 

* images: 类 型 float， 形 状 [batch size, mnist.IMAGE PIXELS], y&fE[-0.5, 0.5]. 
* labels; 类 型 ijnt32， 形 状 [batch size]， 范 围 [0, mnist.NUM CLASSES] 

注意 tf.train.QueueRunner 必须 用 tf.train.start queue runners () 来 启动 线程 


"nnm 














di 












































if not num epochs: num epochs - None 

# 获取 文件 路 径 ， 即 /tmp/data/train.tfrecords, /tmp/data/validation.records 

filename = os.path.join(FLAGS.train dir, 
TRAIN FILE if train else VALIDATION FILE) 


with tf.name scope('input!'): 
# tf.train.string input producer 返回 一 个 QueueRunner， 里 面 有 一 个 FIFOQueue 
filename queue = tf.train.string input producer( 
[filename], num epochs-num epochs) # 如 果 样 本 量 很 大 ， 可 以 分 成 若干 文件 ， 把 文件 名 列表 传 入 




















image, label = read and decode(filename queue) 


* 随机 化 example， 并 把 它们 规整 成 batch_size 大 小 
# tf.train.shuffle batch 生成 了 RandomShuffleoueue， 并 开启 两 个 线程 
images, sparse labels = tf.train.shuffle batch( 























[image, label], batch size-batch size, num threads-2, 
capacity-1000 + 3 * batch size, 
min after dequeue-1000) # 留 下 一 部 分 队列 ， 来 保证 每 次 有 足够 的 数据 做 随机 打 乱 








return images, sparse labels 
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最 后 ， 我 们 把 生成 的 batch 张 量 作 为 网 络 的 输入 ， 进 行 训练 : 








def run training(): 
with tf.Graph().as default(): 
# 输入 images fll labels 
images, labels - inputs(train-True, batch size-FLAGS.batch size, 
num epochs-FLAGS.num epochs) 





# 构建 一 个 从 推理 模型 来 预测 数据 的 图 

logits = mnist.inference (images, 
FLAGS.hiddenl, 
FLAGS.hidden2) 


loss = mnist.loss(logits, labels) # 定义 损失 函数 


# Add to the Graph operations that train the model. 
train op - mnist.training(loss, FLAGS.learning rate) 








* 初始 化 参数 ， 特 别 注 意 : string input producer 内 部 创建 了 一 个 epoch 计数 变量 ， 
# 归 入 tf.GraphKeys .LOCAL VARIABLES 集合 中 , 必须 单独 用 initialize local variables () 初始 化 
init op = tf.group(tf.global variables initializer(), 























tf.local variables initializer() 
sess = tf.Session() 
sess.run(init op) 
# Start input enqueue threads. 


coord = tf.train.Coordinator() 
threads = tf.train.start queue runners(sess-sess, coord-coord) 














try: 
step = 0 
while not coord.should stop): 4 进入 永久 循环 
start time - time.time() 
., loss value = sess.run([train op, loss]) 
duration - time.time() - start time 


# 每 100 次 训练 输出 一 次 结果 
if step $ 100 == 
print('Step $d: loss - $.2f ($.3f sec)' $ (step, loss value, duration)) 

step += 1 
except tf.errors.OutOfRangeError: 

print('Done training for $d epochs, $d steps.' $ (FLAGS.num epochs, step)) 
finally: 

coord.request stop() # 通知 其 他 线程 关闭 














coord.join(threads) 
sess.close() 


输出 结果 如 下 : 
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Step 0: loss = 2.29 (0.193 sec) 

Step 100: loss - 2.05 (0.030 sec) 
Step 200: loss = 1.63 (0.022 sec) 
Step 300: loss = 1.38 (0.025 sec) 
Step 400: loss = 0.94 (0.027 sec) 
Step 500: loss = 0.86 (0.027 sec) 
Step 600: loss = 0.68 (0.024 sec) 
Step 700: loss = 0.67 (0.028 sec) 
Step 800: loss = 0.62 (0.026 sec) 
Step 900: loss = 0.56 (0.028 sec) 
Step 1000: loss = 0.49 (0.018 sec) 





Done training for 2 epochs, 1100 steps. 


数据 集 大 小 为 55000，2 轮训 练 ， 共 110000 个 数据 ，batch_size 大 小 为 100， 故 训练 次 数 
为 1 100 次 ， 每 100 次 训练 输出 一 次 结果 ， 共 输出 11 次 结果 。 


如 上 所 述 ， 我 们 总 结 出 TensorFlow 使 用 TFRecords 文件 训练 样本 的 步骤 : 
(1) 在 生成 文件 名 队列 中 ， 设 定 epoch 数量 ; 
(2) 训练 时 ， 设 定 为 无 穷 循环 ; 

(3) 在 读 取 数 据 时 ， 如 果 捕 捉 到 错误 ， 终 止 。 

































































4.11 实现 一 个 自 定 义 操作 


尽管 TensorFlow 自己 提供 了 足够 多 的 操作 , 初学 者 甚至 中 高 级 的 读者 都 可 以 直接 用 手册 中 
的 API 来 实现 自己 的 业务 需求 。 想 创建 一 个 不 包含 在 现 有 TensorFlow 库 中 的 操作 ， 可 以 先 试 试 
用 现 有 的 Python 操作 的 组 合 能 不 能 实现 ， 如 果 现 有 操作 的 组 合 不 能 实现 , 或 者 能 够 实现 但 是 效 
率 不 高 ， 再 或 者 因为 发 现在 XLA 框架 中 难以 自己 融合 (对 XLA 的 讲解 参见 第 16 章 )， 想 手工 
融合 几 个 操作 ， 如 何 实现 呢 ? 

本 节 内 容 较 难 ， 需 要 熟练 掌握 C++ 语言 ， 并 且 对 张 量 的 流动 和 前 向 传播 和 反 向 传播 有 很 深 
的 理解 。 建 议 初 学 者 跳 过 这 部 分 内 容 ， 看 完全 书 之 后 再 看 本 节 。 



























































































































































































































































4.11. + 
要 自 定 义 一 个 操作 ， 最 简单 的 是 需要 以 下 3 步 。 
(1) 在 C++ 文件 〈*_ops.cc 文件 ) 中 注册 新 的 操作 。 这 里 定义 了 操作 功能 的 接口 规范 ， 如 
操作 的 名 称 、 输 入 和 输出 以 及 属性 等 。 
(2) 在 C++ 文 件 (* kernels.cc 文件 ) 中 实现 这 个 操作 。 也 就 是 ， 对 上 一 步 中 操作 注册 规范 
的 具体 实现 ， 可 以 实现 在 如 CPU、GPU 等 多 个 内 核 上 。 
G) 测试 操作 。 编 译 出 该 操作 的 库 文件 (*_ops.so 文件 )， 然 后 在 Python 中 使 用 这 个 操作 。 
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因此 ， 要 创建 一 个 新 的 操作 ， 需 要 掌握 一 些 C++ 语言 的 知识 。 





4.11.2 ”最 佳 实践 


下 面 以 词 嵌 入 的 例子 来 说 明 ， 源 代码 参见 https://github.com/tensorflow/models/blob/master/ 
tutorials/embedding/word2vec optimized.py. 在 3.3.2 节 中 , 我 们 以 峙 入 投影 仪 的 可 视 化 讲 过 这 个 
Word2vec 的 可 视 化 例子 。 

第 一 步 ， 我 们 创建 word2vec_ops.cc 来 注册 两 个 操作 ， 即 SkipgramWord2vec 和 NegTrainWord2vec, 
代码 如 下 : 














#include "tensorflow/core/framework/op.h" 
namespace tensorflow { 


REGISTER OP("SkipgramWord2vec") 
.Output("vocab word: string") 
.Output("vocab freq: int32") 

.Output("words per epoch: int64") 

( 
( 
( 


.Output("current epoch: int32") 
.Output("total words processed: int64") 
.Output("examples: int32") 


.Output("labels: int32") 
.SetIsStateful() 
.Attr("filename: string") 
.Attr("batch size: int") 
.Attr("window size: int - 5") 
.Attr("min count: int - 5") 
.Attr("subsample: float = 1e-3") 
.Doc (R"doc( 
Parses a text file and creates a batch of examples. 


vocab word: A vector of words in the corpus. 

vocab freq: Frequencies of words. Sorted in the non-ascending order. 

words per epoch: Number of words per epoch in the data file. 

current epoch: The current epoch number. 

total words processed: The total number of words processed so far. 

examples: A vector of word ids. 

labels: A vector of word ids. 

filename: The corpus's text file name. 

batch size: The size of produced batch. 

window size: The number of words to predict to the left and right of the target. 

min count: The minimum number of word occurrences for it to be included in the 
vocabulary. 

subsample: Threshold for word occurrence. Words that appear with higher 
frequency will be randomly down-sampled. Set to 0 to disable. 

)doc"); 
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REGISTER OP ("NegTrainWord2vec") 
.Input("w in: Ref(float)") 
.Input("w out: Ref(float)") 


( 
.Input("examples: int32") 
( 


.Input("labels: int32") 
.Input("lr: float") 
.SetIsStateful() 


.Attr("vocab count: list(int)") 
.Attr("num negative samples: int") 
.Doc (R"doc( 


Training 


via negative sampling. 


w in: input word embedding. 


w out: output word embedding. 


examples: A vector of word ids. 


labels: A vector of word ids. 
vocab count: Count of words in the vocabulary. 


num negative samples: Number of negative samples per example. 


)doc"); 





第 二 步 ， 我 们 将 这 两 个 操作 在 CPU 设备 上 进行 实现 ， 生 成 word2vec kernels.cc 文件 ， 代码 


y 
5 
7 


includ 
includ 
includ 
includ 
includ 
includ 
includ 
includ 
includ 














includ 


0 0000000 0 0 


"tensorfl 
"tensorfl 
"tensorfl 
"tensorfl 
"tensorfl 
"tensorfl 
"tensorfl 
"tensorfl 
"tensorfl 
"tensorfl 


namespace tensorf]! 


// 预先 计算 的 示例 数 
const int kPrecalc = 3000; 
// 处 理 前 读 入 句子 的 字数 


const int kSentenceSize = 1000; 


namespace { 


low/core/framework/op.h" 
Llow/core/framework/op kernel.h" 
low/core/lib/core/stringpiece.h" 
low/core/lib/gtl/map util.h" 
low/core/lib/random/distribution sampler.h" 
Llow/core/lib/random/philox random.h" 
Llow/core/lib/random/simple philox.h" 
low/core/lib/strings/str util.h" 
Llow/core/platform/thread annotations.h" 
Llow/core/util/guarded philox random.h" 





low ( 


bool ScanWord(StringPiece* input, string* word) ( 
str util::RemoveLeadingWhitespace (input); 


StringPiece tmp; 
if (str util::ConsumeNonWhitespace(input, &tmp)) { 


word-»assign(tmp.data(), tmp.size()); 
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return true; 
} else { 
return false; 


class SkipgramWord2vecOp : public OpKernel { 
public: 
explicit SkipgramWord2vecOp (OpKernelConstruction* ctx) 

: OpKernel(ctx), rng (&philox ) { 

string filename; 

OP REQUIRES OK(ctx, ctx-»GetAttr("filename", &filename)); 
OP REQUIRES OK(ctx, ctx-»GetAttr("batch size", &batch size )); 
OP REQUIRES OK(ctx, ctx-»GetAttr("window size", &window size )); 
OP REQUIRES OK(ctx, ctx-»GetAttr("min count", &min count )); 
OP REQUIRES OK(ctx, ctx-»GetAttr("subsample", &subsample )); 
OP REQUIRES OK(ctx, Init(ctx-»env(), filename)); 








mutex lock l(mu ); 


example pos = corpus size ; 
label pos = corpus size ; 

label limit = corpus size ; 
sentence index = kSentenceSize; 


for (int i» 0; i < kPrecalc; ++i} { 
NextExample(&precalc examples [i].input, &precalc examples [i].1abel); 


void Compute (OpKernelContext* ctx) override { 

Tensor words per epoch(DT INT64, TensorShape((])); 
Tensor current epoch(DT INT32, TensorShape((í])); 
Tensor total words processed(DT INT64, TensorShape((])); 
Tensor examples (DT INT32, TensorShape(í(batch size })); 
auto Texamples = examples.flat«cint32»(); 
Tensor labels(DT INT32, TensorShape((batch size ])); 
auto Tlabels = labels.flat«int32»(); 





mutex lock l(mu ); 
for (inti = 0; i < batch size ; ++i) { 
Texamples(i) = precalc examples [precalc index ].input; 
Tlabels(i) = precalc examples [precalc index ].1label; 
precalc index ++; 
if (precalc index >= kPrecalc) { 
precalc index = 0; 
for (int j = 0; j < kPrecalc; ++j) { 
NextExample (&precalc_examples_[j].input, 
&precalc_examples_[j].label); 
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} 
words per epoch.s 


current epoch.scalar<int32>()() = current epoch ; 


total words proce 
} 
ctx->set_output 
ctx->set_output 
ctx->set_output 


(0 
(1 
(2 
ctx->set_output (3, 
ctx->set_output (4 
ctx->set_output (5 
ctx->set_output (6 


private: 
struct Example { 
int32 input; 
int32 label; 
}; 


int32 batch size = 0 
int32 window size - 


calar«int64»()() = corpus size ; 


ssed.scalar«int64»()() 


word ); 

freq ); 
words per epoch); 
current epoch); 

total words processed); 
examples); 

labels); 


float subsample = 1e-3; 


int min count = 5; 
int32 vocab size = 0 
Tensor word ; 

Tensor freq ; 

int64 corpus size - 


0; 


sStd::vector«int32» corpus ; 


Std::vector«Example» 
int precalc index = 


precalc examples ; 
0; 


std::vector«int32» sentence ; 


int sentence index = 


mutex mu ; 


0; 


random::PhiloxRandom philox  GUARDED BY (mu ); 


random::SimplePhilox 


rng GUARDED BY (mu ); 


int32 current epoch GUARDED BY (mu ) = -1; 
int64 total words processed  GUARDED BY (mu ) 
int32 example pos GUARDED BY (mu ); 

int32 label pos  GUARDED BY (mu ); 

int32 label limit  GUARDED BY (mu ); 


//(example pos , label 


while (true) { 
if (label pos >= 











label limit ) { 


++total words processed ; 


*tsentence index ; 


if (sentence index >= kSentenceSize) 


{ 


total words processed ; 


0; 


pos } 是 下 一 个 示例 的 光标 。example pos 在 corpus 
// 对 每 个 例子 ， 我 们 为 标记 随机 生成 [label pos , label limit] 


void NextExample (int32* example, int32* label) EXCLUSIVE LOCKS REQUIRED (mu ) 





结 


H 





尾 处 换行 


{ 
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sentence index = 0; 
for (inti = 0; i < kSentenceSize; ++i, ++example pos ) { 
if (example pos >= corpus size ) { 
++current epoch ; 
example_pos_ = 0; 
} 
if (subsample_ > 0) { 
int32 word freq = freq .flat«int32»() (corpus [example pos ]); 
// See Eq. 5 in http://arxiv.org/abs/1310.4546 
float keep prob - 
(std::sqrt(word freq / (subsample * corpus size )) + 1) * 
(subsample * corpus size ) / word freq; 
if (rng .RandFloat() > keep prob) { 
i--; 


continue; 


} 
sentence [i] = corpus [example pos ]; 


} 
const int32 skip = 1 + rng .Uniform(window size ); 


label pos = std::max«int32»(0, sentence index - skip); 
label limit - 
std::min«int32» (kSentenceSize, sentence index + skip + 1); 
} 
if (sentence_index_ != label_pos_) { 
break; 
} 
++label pos ; 
} 
*example = sentence [sentence index ]; 
*label = sentence [label pos ++]; 


Status Init(Env* env, const string& filename) { 
string data; 
TF RETURN IF ERROR(ReadFileToString(env, filename, &data)); 
StringPiece input = data; 
String w; 
corpus size = 0; 
Std::unordered map«string, int32» word freq; 
while (ScanWord(&input, &w)) ( 
++ (word freq[w]):; 
*ttcorpus size ; 
} 
if (corpus_size_ < window size_ * 10) { 
return errors::InvalidArgument("The text file ", filename, 
" contains too little data: ", 
corpus size , " words"); 
} 
typedef std::pair<string, int32> WordFreq; 
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Std::vector«WordFreq» ordered; 
for (const auto& p : word freq) { 
if (p.second >= min count ) ordered.push back(p); 


} 


LOG(INFO) << "Data file: " «« filename «« " contains " «« data.size() 
<< " bytes, " << corpus size << " words, " << word freq.size() 
«« " unique words, " «« ordered.size() 


«« " unique frequent words."; 
word freq.clear(); 
std::sort(ordered.begin(), ordered.end(), 
[] (const WordFreq& x, const WordFreq& y) { 
return x.second » y.second; 
)); 
vocab size = static cast«int32» (1 + ordered.size()); 
Tensor word(DT STRING, TensorShape(ívocab size ])); 
Tensor freq(DT INT32, TensorShape(í(vocab size ])); 
word.flat«string»()(0) = "UNK"; 
static const int32 kUnkId = 0; 
std::unordered map«string, int32» word id; 
int64 total counted - 0; 
for (std::size t i = 0; i < ordered.size(); ++i) ( 
const auto& w = ordered[i].first; 
auto id = i + 1; 


word.flat«string»()(id) = w; 
auto word count - ordered[i].second; 
freq.flat«int32»() (id) = word count; 
total counted += word count; 
word id[w] = id; 
} 
freq.flat<int32>() (kUnkId) = corpus size - total counted; 
word - word; 
freg = freg? 


corpus .reserve(corpus size ); 
input = data; 
while (ScanWord(&input, &w)) { 
corpus .push back(gtl::FindWithDefault (word id, w, kUnkId)); 
} 
precalc examples .resize(kPrecalc); 
sentence .resize(kSentenceSize); 


return Status::OK(); 


}; 


REGISTER KERNEL BUILDER (Name ("SkipgramWord2vec").Device(DEVICE CPU), 
SkipgramWord2vecOp); 


class NegTrainWord2vecOp : public OpKernel { 
public: 
explicit NegTrainWord2vecOp(OpKernelConstruction* ctx) : OpKernel(ctx) { 
base .Init(0, 0); 
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OP REQUIRES OK (ctx, ctx-»GetAttr("num negative samples", &num samples )); 


std: :Vector<int32> vocab count; 
OP REQUIRES OK(ctx, ctx-»GetAttr("vocab count", &vocab count)); 


Std::vector«float» vocab weights; 

vocab weights.reserve(vocab count.size()); 

for (const auto& f : vocab count) { 
float r = std::pow(static cast«float» (f), 0.75f); 
vocab weights.push back(r); 


} 
sampler = new random::DistributionSampler (vocab weights); 


~NegTrainWord2vecOp() { delete sampler_; } 


void Compute (OpKernelContext* ctx) override { 
Tensor w_in = ctx->mutable_input (0, false); 
OP REQUIRES(ctx, TensorShapeUtils::IsMatrix(w in.shape()), 


errors::InvalidArgument("Must be a matrix")); 

Tensor w out - ctx-»mutable input(1, false); 

OP REQUIRES(ctx, w in.shape() == w out.shape(), 
errors::InvalidArgument("w in.shape == w out.shape")); 


const Tensor& examples = ctx-»input (2); 
OP REQUIRES(ctx, TensorShapeUtils::IsVector(examples.shape()), 


A 


errors::InvalidArgument ("Must be a vector")); 
const Tensor& labels = ctx->input (3); 
OP _ REQUIRES (ctx, examples.shape() == labels.shape(), 


Es 


errors::InvalidArgument("examples.shape -- labels.shape")); 
const Tensor& learning rate = ctx-»input (4); 
OP REQUIRES(ctx, TensorShapeUtils::IsScalar(learning rate.shape()), 




















Es 














errors::InvalidArgument("Must be a scalar")); 


auto Tw in = w in.matrix«float»(); 

auto Tw out = w out.matrix«float»(); 

auto Texamples = examples.flat«cint32»(); 

auto Tlabels = labels.flat«int32»(); 

auto lr = learning rate.scalar«float»() 0; 

const int64 vocab size - w in.dim size(0); 

const int64 dims = w in.dim size(1); 

const int64 batch size - examples.dim size(0); 

OP REQUIRES(ctx, vocab size == sampler -»num(), 
errors::InvalidArgument ("vocab size mismatches: ", vocab size, 

"vs, ", sampler ->num())); 


// v in 的 梯度 累加 器 


Tensor buf (DT FLOAT, TensorShape((dims]))); 
auto Tbuf = buf.flat«float»(); 


Tensor g buf (DT FLOAT, TensorShape((])); 
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auto g = 


// 在 下 面 的 循环 


g buf.scalar«float»(); 


P， 每 个 负 样本 需要 两 个 随机 32 位 值 





// 我 们 为 每 个 样本 保留 


base .ReserveSamples32(batch size * num samples * 8); 


auto rnd - 











8 个 值 ， 防 止 基础 实现 发 生变 化 





random::SimplePhilox srnd(&rnd); 


for 
const imnt32 
DCHECK(0 «- 
const int32 
DCHECK(0 «- 
auto v in - 


(int64 i - 


0; 
example - Texamples(i); 
example && example « vocab size) 
label = Tlabels (i); 
label && label « vocab size) 
Tw in.chip«0» (example); 


i < batch size; ++i) ( 


«« example; 


«« label; 


// 正 样本 : 预测 标记 








// ”前 向 传播 











反 向 传播 


E 


auto v out = 
auto dot - 


g= 
Tbuf = 


v out += v in * 


// 负 样 本 : 

// ”前 向 传播 
// 
// 
// 
// 


for 














反 向 传播 


互 


(int j 
const int 
if 


auto dot - 
-((-dot).exp() 


g- 


(dot.exp() 
v Our * 


= 0; 


(sample == label) 
auto v sample - 


: X= 
l = log(sigmoid(x)) 
: dl/dx = g= 
dl/d(v in) = 
dl/d(v out) = 


v in' * v out 
sigmoid (-x) 
g * v out' 
vin'*g 
Tw out.chip«0» (label); 
(v in * v out).sum(); 
+ l.f).inverse(); 
(g0 * 1r); 

(g0 * 1r); 


: X= 
l = log(sigmoid(-x)) 
: dl/dx 2g = 
dl/d(v in) = 
dl/d(v out) = 


v in' * v sample 
-sigmoid (x) 

g * v out' 

*g 

t3) 1 
sampler -»Sample(&srnd); 
continue; // Skip. 

Tw out.chip«0» (sample); 


v in' 
j < num samples ; 
sample - 


(vin * v sample).sum(); 
* l.f).inverse(); 
(g() * 1r); 


Tbuf += v sample * 


v sample += v in * (g() * 1r); 


v in += Tbuf; 


private: 


int32 num samples = 0; 
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random::DistributionSampler* sampler = nullptr; 
GuardedPhiloxRandom base ; 


REGISTER KERNEL BUILDER (Name ("NegTrainWord2vec").Device (DEVICE CPU), NegTrainWord2vecOp); 


} 
第 三 步 ， 编 译 出 该 操作 的 类 文件 ， 并 做 测试 。 


我 们 需要 在 特定 的 头 文件 目录 下 编译 ， 使 用 Python 提供 的 get_include 获取 头 文件 目录 ， 
然后 使 用 C++ 编译 器 〈 如 gt+) 将 操作 编译 成 动态 库 ， 如 下 : 



























































F INC=S$ (python -c 'import tensorflow as tf; print(tf.sysconfig.get include())"') 
+ -std=c++11 -shared word2vec ops.cc word2vec kernels.cc -o word2vec ops.so -fPIC -I 
TF INC -02 -D GLIBCXX USE CXX11 ABI=0 


Q od 





ur 

















TensorFlow 的 Python API 提供 了 t£load op library 函数 来 加 载 动 态 库 ， 并 向 TensorFlow 框 
架 注册 操作 。load_op_library 返回 一 个 包含 操作 和 内 核 的 Python 模块 。 于 是 ， 我 们 测试 如 下 : 





import tensorflow as tf 
word2vec = tf.load op library('word2vec ops.so') 
with tf.Session(''): 
word2vec.skipgram word2vec(filename-'text8', batch size-500, window size-5, 
min count-5, subsample-0.001) 





成 功 输 出 了 : 


SkipgramWord2vec (vocab word-«tf.Tensor 'SkipgramWord2vec:0' shape=<unknown> dtype- 
string», vocab freq-«tf.Tensor 'SkipgramWord2vec:l' shape-«unknown» dtype-int32», 
words per epoch-«tf.Tensor 'SkipgramWord2vec:2' shape-«unknown» dtype-int64», current 
epoch-«tf.Tensor 'SkipgramWord2vec:3' shape-«unknown» dtype-int32», total words 
processed-«tf.Tensor 'SkipgramWord2vec:4' shape-«unknown» dtype-int64», examples- 
«tf.Tensor 'SkipgramWord2vec:5' shape-«unknown» dtype-int32», labels-«tf.Tensor 
'SkipgramWord2vec:6' shape-«unknown» dtype-int32») 


说 明 我 们 注册 的 目 定 义 操 作成 功 了 。 





4.12 小 结 


本 章 主 要 讲解 了 TensorFlow 的 基础 知识 ， 包 括 系 统 架 构 、 设 计 理 念 、 基 本 概念 ， 以 及 常用 
的 API、 神 经 元 函数 和 神经 网 络 ， 还 介绍 了 存储 与 加 载 模型 的 方法 以 及 线程 和 队列 的 知识 (这 
些 内 容 很 有 利于 在 第 14 章 对 分 布 式 的 理解 )， 最 后 介绍 了 自 定义 操作 的 方法 。 本 章 是 全 书 中 最 
重要 的 。 
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TensorFlow 源 代 码 解 析 












































在 了 解 了 TensorFlow 的 基本 原理 、 编 程 模 型 和 常用 API 后 , 我 们 一 起 梳理 一 下 TensorFlow 


的 源 代码 ， 以 便 更 深入 地 理解 TensorFlow 的 设计 ， 为 今后 学 习 各 种 模型 示例 做 准备 。 
源 代 码 解 析 往 往 是 学 习 一 门 新 技术 时 ， 能 够 整体 理解 其 框架 的 重要 途径 ， 相 信 本 章 会 是 很 





































































































5.1 TensorFlow 的 目录 结构 


我 们 仍然 以 TensorFlow 1.1.0 版 本 为 例 ， 看 看 TensorFlow 的 代码 结构 。 
进入 tensorflow-1.1.0 目录 ， 代 人 码 结构 如 下 : 








上 一 一 ACKNOWLEDGMENTS TensorFlow 版 权 声明 
上 一 一 ADOPTERS .md # 使 用 TensorFlow 的 人 员 或 组 织 列 表 
| 一 AUTHORS # TensorFlow 作者 的 官方 列表 




















| 一 一 CONTRIBUTING .md # TensorFlow 贡献 指导 
|I—— ISSUE TEMPLATE .md 4 提 ISSUE 的 模板 
LI—— LICENSE # 版 权 许可 

上 一 README .mgd 
L— 
L— 








RELEASE.md # 每 次 发 版 的 change log 
WORKSPACE f 配置 移动 端 开发 环境 
bower .BUILD 
configure 
| 一 一 models.BUILD 
上 一 tensorflow # 主 目录 ， 后 面 分 析 的 重点 
|— third party # 第 三 方 库 ， 包括 eigen3 (特征 运算 的 库 ， 包 括 SVD、LU 分 解 等 )、gpus (支持 cuda), 
hadoop, jpeg, llvm, py. sycl 
L— tools # 构建 cuda 支持 


L—— util 






















































































^N 














， 最 重要 的 源 代码 保存 在 tensorflow 目录 中 。tensorflow 目录 的 结构 如 下 : 














上 一 一 BUILD 

— _init_.py 

| c 

| cc # 采用 C++ 进行 训 


上 一 compiler 
一 contrib # 将 常 
上 一 一 core # C++ 实现 
— examples 4 各 利 
| 一 g3doc # 针对 C++、 






































功能 封装 在 一 起 


练 的 样 例 

















|— go 
一 java 
— opensource only # 声明 目录 


上 一 一 python # Python 实现 的 主要 目录 
L—— stream executor # 流 处 理 





的 主要 目录 
示例 ， 本 书后 续 ; 
Python 版 本 的 代码 文档 











的 高 级 API 
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的 例子 主要 就 在 这 个 目录 中 





























| 六 一 tensorboard 4 App, Web 支持 ， 
| 一 tensorflow.bzl 


— tf exported symbols.lds 








[—— tf version script.lds 
l— tools 4 一 些 工具 杂项 
| 一 user ops 


L—— workspace.bzl 


下 




















51.1 contirb 


contrib 目录 中 保存 的 是 将 常用 的 功能 封装 
在 高 级 API 完善 后 被 官方 迁移 到 核心 的 TensorFlow 目录 
有 了 更 完整 的 体现 。 











很 有 可 能 
(package) 在 https://github.com/tensorflow/models 








面 我 们 就 简单 介绍 几 个 重点 





























以 及 脚本 支持 


























成 的 高 级 API。 但 是 这 个 目录 并 不 是 官方 支持 的 ， 
RAH, MEA- WDE 






































这 里 重点 介绍 几 个 常用 包 
































framework: 很 多 函数 (如 get variables, get global step) 都 在 这 里 定义 ， 还 有 一 些 废 
弃 或 者 不 推荐 (deprecated) 的 函数 。 


layers: 这 个 包 主 要 有 initializers.py. layers.py. optimizers.py. regularizers.py. summaries.py 











等 文件 。initializers.py " 




















regularizers.py 中 包含 




















learn: 这 个 包 是 使 用 





节 可 视 化 API) 添加 至 





带 有 权重 的 





























模型 、 读 取 批 处 理 数据 和 队列 功能 











rmn: 这 个 包 提供 了 额 多 








Ph 主要 是 做 变量 








E 则 化 函数 。summaries.py ' 
|| tf.GraphKeys.SUMMARIES 集合 中 的 函数 。 














时 初始 化 的 函数 。layers.py 中 有 关于 层 操 作 和 权 习 
偏 置 变量 的 函数 。optimizers.py 中 包含 损失 函数 和 global step 张 量 的 优化 器 操作 。 


TES 























包含 将 摘要 操作 ( 见 4.4.2 








TensorFlow 进行 深度 学 习 的 高 级 API， 包 括 完 成 训练 模型 和 评估 
的 API 封装 。 


的 RNN Cell, 也 就 是 对 RNN 隐藏 层 的 各 种 改进 , 如 LSTMBlockCell、 
GridLSTMCell、AttentionCellWrapper 等 。 


GRUBlockCell, FusedRNNCell, 














seq2seq: 这 个 包 提 供 了 建立 神经 网 





slim: TensorFlow-Slim (TF-Slim) 是 一 个 


























75 2 seq2seq 























层 和 损失 函数 的 操作 。 
JFE, MAMY 





E 估 TensorFlow 中 的 复杂 





模型 的 轻 量 级 库 。 在 使 用 中 可 以 将 TF-Slim 与 TensorFlow 的 原生 函数 和 tf.contrib 中 的 
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其 他 包 进行 自由 组 合 。TF-Slim 现在 已 经 被 逐渐 迁移 到 TensorFlow 开源 的 Models 中 ， 
这 里 包含 了 几 种 广泛 使 用 的 卷 积 神经 网 络 图 像 分 类 模型 的 代码 ， 可 以 从 头 训练 模型 或 
预 训练 模型 开始 微调 。TF-Slim 非常 有 用 ， 在 12.1 节 中 会 用 到 。 


































































































5.1.2 core 
这 个 目录 中 保存 的 都 是 C 语言 的 文件 ， 是 TensorFlow 的 原始 实现 。 


上 一 一 BUILD 

| 一 一 common runtime 4 公共 运行 库 
— debug 
~ 一 distributed runtime # 分 布 式 执行 模块 , 含有 grpc session, grpc worker, grpc master 等 
上 一 example 

L—— framework # 基础 功能 模块 

| 一 graph 
L— kernels # 一 些 核心 操作 在 CPU, CUDA 内 核 上 的 实现 
L— iib # 公共 基础 库 
















































































— ops 

LI—— platform # 操作 系统 实现 相关 文件 

I—— protobuf # .proto 文件 ， 用 于 传输 时 的 结构 序列 化 
上 一 public # API 的 头 文件 目录 

— user ops 

util 











Protocol Buffers 是 谷歌 公司 创建 的 一 个 数据 序列 化 ”(serialization) 工具 ， 可 以 用 于 结构 化 
数据 序列 化 ， 很 适合 作为 数据 存储 或 者 RPC 数据 交换 的 格式 。 定 义 完 协议 缓冲 区 后 ， 将 生成 .pb. 
和 .pb.cc 文件 ， 其 中 定义 了 相应 的 get, set 以 及 序列 化 和 反 序 列 化 函数 。TensorFlow 的 几 个 核心 
proto 文件 graph defproto、node_ def.proto. op def.proto 都 保存 在 framework 目录 中 。 构 图 时 先 
构建 graph_def， 存 储 下 来 ， 然 后 在 实际 计算 时 再 转 成 如 图 、 贡 点 、 操 作 等 的 内 存 对 象 。 

"Fifi EA tensorflow-1.1.0/tensorflow/core/framework/node def.proto 为 例 来 说 明定 义 proto 文件 
Ifi. node defproto 定义 中 指定 了 设备 (device) 操作 Cop) 以 及 操作 的 属性 〈attr)。 代 码 
如 下 : 


































































































syntax = "proto3"; 


package tensorflow; 

option cc enable arenas - true; 

option java outer classname - "NodeProto"; 

option java multiple files - true; 

option java package = "org.tensorflow.framework"; 





(D https://github.com/tensorflow/models/tree/master/slim 
D 序列 化 是 指 将 对 象 的 状态 信息 转换 为 可 以 存储 或 传输 的 形式 的 过 程 。 
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import "tensorflow/core/framework/attr value.proto"; 


message NodeDef { 
string name = 1; # 操作 的 名 称 
string op = 2; # 操作 的 名 称 
repeated string input = 3; # 每 个 input 指明 了 当前 节点 来 自 哪个 节点 的 第 几 个 张 量 ， 
# 格式 是 node:index 
string device = 4; # 指定 device 方法 
map«string, AttrValue> attr = 5; # 其 中 AttrValue 又 是 另外 一 个 协议 缓冲 区 
}; 
























































framework 目录 中 还 有 node def builderh、node def buildercc、node def util.h、 node def 
util test.cc 等 文件 ， 这 都 是 为 了 在 C++ 里 能 操作 上 面 代 码 中 定义 的 node_def.proto 的 protobuf 结构 。 






































5.1.3 examples 


examples 目录 中 给 出 了 深度 学 习 的 一 些 例子 ， 包 括 MNIST、Word2vec、Deepdream、Iris、 
HDFS 的 一 些 例子 ， 对 入 门 非常 有 帮助 。 此 外 ， 这 个 目录 中 还 有 TensorFlow 在 Android 系统 上 的 移 
动 端 实现 ， 以 及 一 些 扩展 为 .ipynb 的 文档 教程 ， 可 以 用 jupyter 打开 使 用 方式 参见 2.4.3 节 )。 















































5.1.4 g3doc 

















TensorFlow 的 文档 是 用 Markdown 在 维护 的 ， 并 存放 在 g3doc 中 。g3doc 目录 可 以 认为 是 
TensorFlow 的 离线 手册 ， 非 常 好 用 。 


g3doc/api_docs 目录 中 的 任何 内 容 都 是 从 代码 中 的 注释 生成 的 ， 不 应 该 直接 编辑 。 脚 本 
tools/docs/gen_docs.sh 是 用 来 生成 API 文档 的 。 如 果 无 参数 调用 ， 它 只 重新 生成 Python API X 
档 《〈 即 操作 的 文档 ， 包 括 用 Python 和 C ++ 定 义 的 )。 如 果 传 递 了 -a， 运 行 脚 本 时 还 会 重新 生成 
C++ API 的 文档 。 这 个 脚本 必须 从 tools/docs 目录 调用 ， 如 果 使 用 参数 -a， 需 要 安装 doxygen . 



























































































































































5.1.5 python 





























第 4 章 中 介绍 的 很 多 函数 的 实现 都 是 在 python 这 个 目录 中 。 例 如 ，4.7 节 中 的 激活 函数 、 
卷 积 函数 、 池 化 函数 、 损 失 函 数 、 优 化 方法 等 。 








5.1.6 tensorboard 












































tensorboard 目录 中 是 实现 TensorFlow 图 表 可 视 化 工具 的 代码 , 代码 是 基于 Tornado 来 实现 











O ”内容 参 考官 方 网 站 https:/www.tensorflow.org/community/documentation。 





@ http;//www.tornadoweb.org/en/stable/ 


105 


106 >> 第 一 篇 ”基础 篇 


网 页 端 可 视 化 的 。 


5.2 TensorFlow 源 代 码 的 学 习 方 法 


如 何 高 效 地 学 习 TensorFlow 源 代 码 呢 ? 很 多 人 在 接触 TensorFlow 后 会 首先 问 这 个 问题 。 
下 面 我 就 介绍 一 下 TensorFlow 源 代码 的 学 习 步 又 。 























(D THE 


























己 要 研究 的 基本 领域 ， 如 图 像 分 类 、 物 体检 测 、 语 音 识 别 等 ， 了 解 对 应 这 个 领 


域 所 用 的 技术 ， 如 卷 积 神经 网 络 (convolutional neural network, CNN) 和 循环 神经 网 络 (recurrent 


neural network, RNN), AI Scy I s As Jg 





























E. o 








(OD 尝试 运行 GitHub 上 对 应 的 基本 模型 ”， 其 目录 结构 如 下 : 





上 FC AUTHORS 

上 一 一 CONTRIBUTING .maq 
上 一 一 LICENSE 

上 一 README .md 

上 一 一 WORKSPRACE 

| 一 autoencoder 
— compression 
— differential privacy 
L— im2txt 

— inception 

[— lm 1b 

上 一 namignizer 

上 一 neural gpu 

| 一 一 neural programmer 
— next _ frame prediction 
| 一 一 resnet 

| slim 

L— street 

| 一 swivel 

| 一 一 syntaxnet 

| 一 textsum 

—— transformer 

上 一 一 tutorials 


L—— video prediction 











如 果 研 究 领域 是 计算 机 视觉 ， 可 以 看 代码 中 的 如 下 几 个 目录 : compresssion (图 











im2txt (图 像 描 述 )、inception (对 ImageNet 数据 集 用 Inception V3 架构 去 训练 和 评 
street〈 路 标识 别 或 验证 码 识别 )。 











GRÆN), slim 〈 图 像 分 类 ) 和 
























































如 果 研 究 领 域 是 











(D https://github.com/tensorflow/models 


自然 语言 处 理 ， 可 以 看 Im 1b C 


像 压 缩 入 


十 )、resnet 





语言 模型 )、namignizer GEZ), swivel 
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(使 用 Swivel 算法 转换 词 向 量 )、syntaxnet 〈 分 词 和 语法 分 析 )、textsum (文本 摘要 ) 以 及 tutorials 
目录 里 的 word2vec〈 词 转换 为 向 量 )。 

这 些 都 是 教科 书 式 的 代码 ， 看 懂 学 懂 对 今后 自己 实现 模型 大 有 神 益 。 党 试 运行 上 述 模型 ， 
并 对 模型 进行 调试 和 调 参 。 当 你 完整 阅读 完 MNIST 或 者 CIFARIO 整个 项 目的 逻辑 后 ， 就 会 党 
握 TensorFlow 项 目 架构 。 

这 里 ， 我 着 重 说 下 slim Ko 

slim 目录 中 的 TF-Slim 是 图 像 分 类 的 一 个 库 ， 它 包含 用 于 定义 、 训 练 和 评估 复杂 模型 的 轻 
量 级 高 级 API。 可 以 用 于 训练 和 评估 的 几 个 广泛 使 用 的 CNN 图 像 分 类 模型 ， 如 lenet, alexnet, 
vgg. inception vl, inception v2. inception v3. inception v4. resnet vl, resnet v2 等 ， 这 些 模 


型 都 位 于 slim/nets 中 ， 有 具体 如 下 : 







































































Iu 


























































































































alexnet.py 

alexnet test.py 
cifarnet.py 
inception.py 

inception resnet v2.py 
inception resnet v2 test.py 
inception utils.py 
inception vl.py 
inception vl test.py 
inception v2.py 
inception v2 test.py 
inception v3.py 
inception v3 test.py 
inception v4.py 


| 





inception v4 test.py 


= 
0 

zi 

o 

ct 
'o 
< 





nets factory.py 
nets factory test.py 
overfeat.py 
overfeat test.py 
resnet utils.py 
resnet vl.py 
resnet vl test.py 
resnet v2.py 
resnet v2 test.py 
vgg.py 

L—— vgg test.py 


TF-Slim 包含 的 脚本 可 以 让 人 从 头 训练 模型 或 从 预先 训练 的 网 络 开始 训练 模型 并 微调 ， 这 
些 脚 本 位 于 slim/scripts， 具 体 如 下 : 


HIT 









































| 一 finetune inception v1 on flowers.sh 
l—— finetune inception v3 on flowers.sh 
|—— train cifarnet on cifarl0.sh 

L——- train lenet on mnist.sh 
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TF-Slim 还 包含 用 于 下 载 标准 图 像 数据 集 ， 将 其 转换 为 TensorFlow LFH TFRecords 格式 ， 








这 些 脚 本 位 于 slim/datasets， 上 有 具体 如 下 : 


| 一 一 cifar10.py 

| 一 一 qataset factory.py 

| 一 dataset utils.py 

| 一 download and convert cifarlO0.py 
| 一 download and convert flowers.py 
| 一 download and convert mnist.py 
L— flowers.py 

L—— imagenet.py 

L—— mnist.py 


随后 可 以 轻松 地 在 任何 上 述 数据 集 上 训练 任何 模型 。 



































(3) 结合 要 做 的 项 目 ， 找 到 相关 的 论文 ， 自 己 用 TensorFlow 实现 这 篇 论文 的 内 容 ， 这 会 让 























你 有 一 个 质 的 飞跃 。 
































上 面 介绍 的 学 习 方法 在 本 书 “ 实 战 篇 ”中 会 再 结合 例子 进行 讲解 。 























5.3 小 结 


本 章 简略 地 解析 了 TensorFlow 源 代码 ,介绍 了 它 的 3 





EH H 














录 结 





构 ， 以 及 一 些 模 块 的 位 置 





和 功能 ， 还 介绍 了 TensorFlow 的 源 代码 学 习 方 法 ， 建 议 读者 可 以 自己 多 去 研究 。 





卷 积 神经 网 


万 张 





图 片 、 
的 演进 从 Vanilla RNN 到 隐 
RNN. 本章 主 要 介绍 这 些 神经 
网 络 ， 为 读者 将 来 自 





1000 类 标记 


ge! 

















-取得 


己 设计 网 络 或 者 
































了 很 好 的 成 绩 。 循 环 久 
藏 层 结构 精巧 的 GRU 和 LSTM, 
经 网 络 模型 的 结构 和 演化 脉络 ， 


E 















































6.4 卷 积 神经 网 络 























神经 网 络 CCNN )， 属 


























经 网 络 的 一 种 ， 





于 人 工 





1 








Ty 











络 
热点 。 








Pie 了 模型 


在 传统 的 识别 算法 中 ， 








可 以 直接 ; 











Ea 








RP 等 具有 高 度 不 变形 。 


那 

















Eds 神经 网 络 (neural networks, NN) BEA ZH p edi A S. ES 
神经 网 络 的 特点 在 于 




















面积 。 


什么 
JE fF g A 








的 复杂 度 ， 减 少 了 权 值 的 数量 


图 片 作为 网 络 的 输入 ， 


是 卷 积 Cconvolution) ME? FR EX 
E 成 第 三 个 函数 的 一 种 数学 算 子 ， 表 
9 设 ftx) 和 g(x) 是 RI 上 的 两 个 可 积 函 数 ， 做 积 




















自动 提取 特征 ， 并 








对 











根据 读 到 的 论文 构建 网 络 模型 


E s 是 目 


络 (convolutional neural network, CNN) 的 演进 从 LeNet 到 AlexNet, -£ 
GoogLeNet， 最 后 到 ResNet， 演 进 的 方式 有 一 定 规 律 ， 并 且 也 在 ImageNet LSVRC 竞赛 上 用 
经 网 络 (recurrent neural networks, RNN) 


再 到 双向 和 多 
并 
































前 语音 分 析 和 


























4 4 H 














PI — RE 





[fg Br 

















块 块 卷 积 核 (conventional kernel) 在 原始 图 


隐藏 层 分 为 卷 积 层 和 池 化 层 〈pooling layer， 又 叫 下 采样 层 )。 
上 平移 来 提取 特征 ， 





像 








我 们 需要 对 输入 的 数据 进行 特征 提取 和 数据 重建 ， 


只 分 变换 的 数学 方法 ， 
征 函数 与 g 经 过 翻转 和 平移 的 
后 的 新 函数 就 称 为 函数 /与 g 


经 网 络 的 发 展 及 其 TensorFlow 实现 











| VggNet, 
120 





























E: f] Deep Bidirectional 
尝试 用 TensorFlow 去 构建 这 些 
J 打下 基础 。 





它 的 权 值 共享 (weight sharing) 的 网 
图 像 识别 领域 研究 








而 卷 积 神经 网 络 








图 片 的 变形 (如 平移 、 比 例 缩放 、 倾 





=] 
入 ~、 





输出 层 。 
一 个 特征 就 是 
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一 个 特征 映射 ， 而 池 化 





慨 通过 汇聚 特征 后 稀 下 参 
池 化 层 最 常见 的 包括 最 大 值 池 
所 示 。 


N 











卷 积 术语 


数 来 减少 要 学 习 的 参数 ， 降 低 网 络 的 复杂 度 ， 
七 (max pooling) 和 平均 值 池 化 (average pooling)， 如 


图 6-1 
| | em 











卷 积 核 在 提取 特 生 


图 6-1 
征 映 射 时 的 动作 称 为 padding， 其 有 











取样 的 下 

















移动 步 长 (Stride ) 不 一 定 能 整除 整 张 图 的 像素 宽度 , 我 们 把 不 越过 边缘 取样 称 为 Valid Padding, 
j 积 小 于 输入 图 像 的 像素 宽度 ;越过 边缘 取 检 
像 的 像素 宽度 一 致 。 在 





























丙种 方式 ， 即 SAME 和 VALID. AF 


卷 积 术语 





称 为 Same Padding， 取 样 的 面积 和 输入 图 
图 6-2 中 ， 左 边 为 Valid Padding, AX Same Padding. 


‘VALID’? PADDING 
‘SAME?’ PADDING 








关于 卷 积 神经 网 络 的 推导 和 实现 可 参考 相关 论文 。 


6.2. 卷 积 神经 网 络 发 展 














神经 网 络 的 发 展 过 程 如 图 6-3 所 示 。 本 图 参考 了 
的 卷 积 神 经 网 络 结构 演化 的 历史 。 











PP 国 科 学 院 计 算 技术 研究 所 刘 昕 博士 整理 


E 





© 本 图 参考 https://classroom.udacity.com/courses/ud730/lessons/6370362152/concepts/63798118170923。 
Q 本 网 参考 https://classroom.udacity.com/courses/ud730/lessons/6370362152/concepts/63798118170923。 
© http://cogprints.org/5869/l/cnn tutorial.pdf 
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网 络 加 深 













Dropart 
ReLu 
GPU+ 大 数据 














| 二 者 结合 











卷 积 神经 网 络 发 展 的 起 点 是 神经 认 知 机 (neocognitron) 模型 ， 当 时 已 经 出 现 了 卷 积 结构 。 
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"a y y © yo y » a T MN 
本 是 Lecun 的 论文 ， 在 这 篇 论文 里 面 较为 讨 














第 一 个 卷 积 神经 网 络 模型 LeCun 诞生 于 1989 年 ， 其 发 明 人 是 LeCun。 学 习 卷 积 神经 网 络 的 读 
尽 地 解释 了 什么 是 卷 积 神经 网 络 ， 并 且 阐 述 了 为 


















































什么 要 卷 积 ， 为 什么 要 降 采 样 ， 径 向 基 函 数 (radial basis function, RBF) 怎么 用 ， 等 等 。 




















1998 年 LeCun 提出 了 LeNet， 但 随后 卷 积 神经 网 络 的 锋芒 逐渐 被 SVM 等 手工 设计 的 特征 
的 分 类 器 盖 过 。 随 着 ReLU 和 Dropout 的 提出 ， 以 及 GPU 和 大 数据 带 来 的 历史 机 遇 ， 卷 积 神经 














网 络 在 2012 年 迎 来 了 历史 性 突破 一 一 AlexNet。 



































加 深 ， 二 是 增强 卷 积 层 的 功能 ， 三 是 从 分 类 任务 到 检测 任务 ， 四 
下 面 就 简单 讲述 各 个 阶段 的 儿 个 网 络 的 结构 及 特点 。 























6.2.1 网络 加 深 


1. LeNet 






































如 图 6-3 所 示 , AlexNet 之 后 卷 积 神经 网 络 的 演化 过 程 主要 有 4 个 方向 的 演化 : 一 个 是 网 络 





是 增加 新 的 功能 模块 。 
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LeNet 的 论文 详 见 http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf。LeNet 包含 





的 组 件 如 下 。 
e 输入 层 : 32X32。 
e 卷 积 层 : 3 个 。 
e 降 采 样 层 : 2 个 。 
e CERE: 1 个。 
e 输出 层 ( 高 斯 连接 )，10 个 类 别 ( 数 字 0—9 的 概率 )。 

















(D http://yann.lecun.conm/exdb/publis/pdf/lecun-98.pdf 
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LeNet 的 网 络 结构 如 图 6-4 所 示 。 


. C3:f. maps 16@10X 10 
MA C PA AEDEM maps u^ S4 maps 16@5X5 


S2:f.maps 


sax amm. 


| 
| | | Um 高 斯 连接 
卷 积 下 采样 卷 积 下 采样 o E 。 全 连接 







C5layer pgjayer 输出 层 
w ai 10 












下 面 就 介绍 一 下 各 个 层 的 用 途 及 意义 。 

COD 输入 层 。 输 入 图 像 尺寸 为 32X32。 这 要 比 MNIST 数据 集中 的 字母 《28X28) 还 大 ， 
即 对 图 像 做 了 预 处 理 reshape 操作 。 这 样 做 的 目的 是 希望 潜在 的 明显 特征 ， 如 笔画 断 续 、 角 点 ， 
能 够 出 现在 最 高 层 特征 监测 卷 积 核 的 中 心 。 

(2) 卷 积 层 (C1, C3, C5 )。 卷 积 运算 的 主要 目的 是 使 原 信号 特征 增强 ， 并 且 降 低 噪音 。 在 一 
个 可 视 化 的 在 线 演示 示例 "中 ， 我 们 可 以 看 出 不 同 的 卷 积 核 输出 特征 映射 的 不 同 ， 如 图 6-5 所 示 。 

G) 下 采样 层 (S2, S4)。 下 采样 层 主要 是 想 降 低 网 络 训练 参数 及 模型 的 过 拟 合 程度 。 通 常 
有 以 下 两 种 方式 。 

e 最 大 池 化 (max pooling): 在 选中 区 域 中 找 最 大 的 值 作为 采样 后 的 值 。 

e 平均 值 池 化 (mean pooling): 把 选中 的 区 域 中 的 平均 值 作为 采样 后 的 值 。 

(4) 全 连接 层 (F6)。F6 是 全 连接 层 ， 计 算 输 入 向 量 和 权重 向 量 的 点 积 ， 再 加 上 一 个 偏 
随后 将 其 传递 给 sigmoid 函数 ， 产 生 单 元 i 的 一 个 状态 。 

(5) 输出 层 。 输 出 层 由 欧式 径 向 基 函 数 (Euclidean radial basis function) 单元 组 成 ， 每 个 类 
别 (数字 的 0 一 9) 对 应 一 个 径 向 基 函 数 单元 ,每 个 单元 有 84 个 输入 。 也 就 是 说 ， 每 个 输出 RBF 
单元 计算 输入 向 量 和 该 类 别 标记 问 量 之 间 的 欧式 距离 。 距 离 越 远 ，RBF 输出 越 大 。 

经 过 测试 ， 采 用 LeNet 6 万 张 原始 图 片 的 数据 集 ， 错 误 率 能 够 降低 到 0.95%; 54 FIKA 
工 处 理 的 失真 数据 集合 并 上 6 万 张 原始 图 片 的 数据 集 ， 错 误 率 能 够 降低 到 0.806. 7 
接着 ， 历 史 转 折 发 生 在 2012 Æ, Geoffrey Hinton 和 他 的 学 生 Alex Krizhevsky 在 ImageNet 
竞赛 中 一 举 夺 得 图 像 分 类 的 冠军 , 刷新 了 图 像 分 类 的 记录 , 通过 比赛 回应 了 对 卷 积 方法 的 质疑 。 
比赛 中 他 们 所 用 网 络 称 为 AlexNet。 













































































































































































(D https://graphics.stanford.edu/courses/cs178/applets/convolution.html 


© 数据 出 自 Yann LeCun、Leon Bottou, Yoshua Bengio 和 Patrick Haffner 的 论文 《GradientBased Learning Applied to 
Document Recognition): http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf。 
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2D signal 


select image: 


hummin... | v 






































Ca) 原始 图 像 
() rect 0.00 | 0.00 | 0.00 | 0.00 | 0.00 2D filter 
big rect 
3) wn 0.00 | 0.00 | -2.00 | 0.00 | 0.00 
(.) gaussian 
© sharpen 0.00 | -2.00 | 9.00 | -2.00 | 0.00 
Q edges 0.00 | 0.00 | -2.00 | 0.00 | 0.00 
(2 shift 0.00 | 0.00 | 0.00 | 0.00 | 0.00 
(.) hand shake 
Q3 custom 
2D result 
(b) 锐 化 卷 积 
Q) rect 0.00 | 0.00 | 0.00 | 0.00 | 0.00 2D filter 
(.) big rect 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
WT 0.00 | 0.00 | -2.00 | 0.00 | 0.00 
(yy gaussian 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
0.00 | -2.00 | 8.00 | -2.00 | 0.00 
() sharpen J 1 | 
(*) edges 0.00 | 0.00 |-2.00 0.00 | 0,00 
Q shift 0.00 | 0.00 | 0.00 | 0.00 | 0.00 
(L) hand shake 
C) custom 
2D result 











CO 边缘 卷 积 
图 6-5 
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2. AlexNet 


AlexNet 在 2012 年 的 ImageNet 图 





























像 分 类 竞赛 中 ，Top-5 错误 率 为 15.3%; 2011 年 的 冠军 是 





采用 基于 传统 浅 层 模型 方法 ，Top-5 错误 率 为 23.8%。AlexNet 也 远 远 超过 2012 年 竞赛 的 第 二 
名 , 错误 率 为 26.2%。AlexNet 的 论文 详 见 Alex Krizhevsky、 Ilya Sutskever 和 Geoffrey E. Hinton 
的 《ImageNet Classification with Deep Convolutional Neural Networks) '. 





AlexNet 的 结构 如 图 6-6 所 示 。 
















AlexNet 由 5 个 卷 积 层 、5 个 池 化 层 、3 个 
































图 中 明确 显示 了 两 个 GPU 之 间 的 职责 划分 : 一 个 GPU 运行 
另 一 个 GPU 运行 图 中 底部 的 层次 部 分 。GPU 之 间 仅 在 茶 些 层 互 相通 信 。 











图 6- 


全 连接 层 ， 大 约 5000 万 个 可 调 参 数组 成 。 最 
一 个 全 连接 层 的 输出 被 送 到 一 个 1000 维 的 softmax 层 ， 产 生 一 个 覆盖 1000 类 标记 的 分 布 。 


AlexNet 之 所 以 能 够 成 功 , 让 深度 学 习 卷 积 的 方法 重 回 到 人 们 视野 , 原因 在 于 使 用 了 如 下 方法 。 
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e 防止 过 拟 合 : Dropout、 数 据 增强 (data augmentation). 
e 非 线性 激活 函数 : ReLU。 











大 数据 训练 : 120 万 〈 百 万 级 ) ImageNet 图 像 数 据 。 





e GPU 实现 、LRN Clocal responce normalization) 规范 化 层 的 使 用 。 


要 学 习 如 此 多 的 参数 ， 


























并 且 防 止 过 拟 合 ， 可 





(1) 数据 增强 : 增加 训练 数据 是 避免 过 拟 合 








数据 有 限 的 时 候 ， 可 以 通过 一 些 变换 从 已 有 
量 。 通 常 采 用 的 变形 方式 以 下 儿 种 ， 具 体 效 果 如 





















































。 水 平 翻转 图 像 (又 称 反射 变化 ，flip)。 





e 从 原始 图 像 ( 大 小 为 256x256) 











的 训练 数据 集中 生成 一 些 新 数据 ， 来 扩大 训练 数据 


以 采用 两 种 方法 : 数据 增强 和 Dropout。 
的 好 方法 ， 并 且 能 提升 算法 的 准确 率 。 当 训练 














图 6-7 所 示 。 





随机 地 平移 变换 (crop〉 出 一 些 图 像 (如 大 小 为 224 X224)。 








e 给 图 像 增加 一 些 随机 的 光照 (又 称 光 照 、 彩 色 变 换 、 颜 色 拌 动 )。 
(2) Dropout。AlexNet 做 的 是 以 0.5 的 概率 将 每 个 隐 层 神经 元 的 输出 设置 为 0。 以 这 种 方式 






























































(D https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 
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皮 抑 制 的 神经 元 既 不 参与 前 向 传播 ， 也 不 参与 反 向 传播 。 因 此 ， 每 次 输入 一 个 样本 ， 就 相当 于 
该 神经 网 络 尝试 了 一 个 新 结构 ， 但 是 所 有 这 些 结构 之 间 共 享 权重 。 因 为 神经 元 不 能 依赖 于 其 他 
申 经 元 而 存在 ， 所 以 这 种 技术 降低 了 神经 元 复杂 的 互 适 应 关系 。 因 此 ， 网 络 需 要 被 迫 学 习 更 为 
健壮 的 特征 ， 这 些 特征 在 结合 其 他 神经 元 的 一 些 不 同 随 机 子 集 时 很 有 用 。 如 有 果 没 有 Dropout, 
我 们 的 网 络 会 表现 出 大 量 的 过 拟 合 。Droponut 使 收敛 所 需 的 迭代 次 数 大 致 增加 了 一 倍 。 
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Ca) 水 平 翻转 Cb) 随机 平移 变换 Cc) 颜色 拌 动 
图 6-7 


Alex 用 非 线 性 激活 函数 relu 代替 了 sigmoid, 发 现 得 到 的 SGD 的 收敛 速度 会 比 sigmoid/tanh 
快 很 多 。 
单个 GTX 580 GPU 只 有 3 GB 内 存 ， 因 此 在 其 上 训练 的 数据 规模 有 限 。 从 AlexNet 结构 图 
可 以 看 出 ， 它 将 网 络 分 布 在 两 个 GPU 上 ， 并 且 能 够 直接 从 另 一 个 GPU 的 内 存 中 读 出 和 写 入 ， 
不 需要 通过 主机 内 存 ， 极 大 地 增加 了 训练 的 规模 。 












































6.2.2 ”增强 卷 积 层 的 功能 


1. VGGNet 


VGGNet 可 以 看 成 是 加 深 版 本 的 AlexNet, 参见 Karen Simonyan 和 Andrew Zisserman 的 论 
X: (Very Deep Convolutional Networks for Large-Scale Visual Recognition) p 

VGGNet 和 下 文中 要 提 到 的 GoogLeNet 是 2014 年 ImageNet 竞赛 的 第 二 名 和 第 一 名 ，Top-5 错误 
率 分 别 为 732% 和 6.66%”。VGGNet 也 是 5 个 卷 积 组 、2 层 全 连接 图 像 特征 、1 层 全 连接 分 类 特征 ， 
可 以 看 作 和 AlexNet 一 样 总 共 8 个 部 分 。 根 据 前 5 个 卷 积 组 ，VGGNet 论文 中 给 出 了 A~E 这 5 种 配 
置 ， 如 图 6-8 所 示 。 卷 积 层 数 从 8 (A 配置 ) 到 16 Œ 配置 ) 递增 。VGGNet 不 同 于 AlexNet 的 地 方 
是 : VGGNet 使 用 的 层 更 多 , 通常 有 16 一 19 层 , 而 AlexNet 只 有 8 层 。VGGNet 的 结构 如 图 6-8 Bras. 

从 VGGNet 的 论文 中 可 以 看 出 ， 随 着 卷 积 层 从 8 到 16 的 一 步 步 加深 ， 通 过 加 深 卷 积 层 数 
已 经 到 达 了 准确 率 提升 的 瓶颈 。 从 论文 中 给 出 的 结果 《〈 如 图 6-9 所 示 ) 可 以 看 到 ， 再 加 深 模型 ， 























































































































(D http;//www.robots.ox.ac.uk/-vgg/research/very deep/ 
Q 数据 来 源 于 竞赛 结果 官网 ，http:Wimage-net.org/challenges/LSVRC/2014/results o 
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错误 率 已 经 很 难 再 降低 了 。 



















ConvNet 配置 
A A-LRN B C D E 
11 weight | 11 weight | 13 weight | 16 weight | 16 weight | 19 weight 
layers layers layers layers layers layers 





t A (224 X 224 RGB 图 像 


conv3-64 | conv3-64 conv3-64 | conv3-64 conv3-64 | conv3-64 
LRN conv3-64 | conv3-64 conv3-64 | conv3-64 


maxpoo 
conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 
conv3-128 | conv3-128 | conv3-128 | conv3-128 

maxpoo 





conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
conv1-256 | conv3-256 | conv3-256 

conv3-256 
maxpoo 

conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv3-512 | conv3-512 | conv3-512 

conv3-512 





maxpoo 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 

conv3-512 | conv3-512 | conv3-512 
conv3-512 








maxpool 

FC-4096 
FC-4096 
FC-1000 
soft-max 


图 6-8 














ILSVRC-2012 上 Top-5 分 类 任务 错误 率 (96) 
验证 集 测试 集 


模型 


图 6-9 








2. GoogLeNet 





提 到 GoogleNet， 我 们 首先 要 说 起 NIN (Network in Network) 的 思想 ” CEM, Min Lin 和 
Qiang Chen 和 Shuicheng Yan 的 论文 《Network In Network》)， 它 对 传统 的 卷 积 方法 做 了 两 点 改 
进 : 将 原来 的 线性 卷 积 层 (linear convolution layer) 变 为 多 层 感知 卷 积 层 (multilayer perceptron); 
将 全 连接 层 的 改进 为 全 局 平均 池 化 。 这 使 得 卷 积 神经 网 络 向 另 一 个 演化 分 文 强 卷 积 模块 
的 功能 的 方向 演化 ，2014 年 诞生 了 GoogLeNet ( 即 Inception Y1)。 谷 歌 公司 提出 的 GoogLeNet 
是 2014 年 ILSVRC 挑战 赛 的 冠军 ， 它 将 Top-5 的 错误 率 降 低 到 了 6.67%。GoogLeNet 的 更 多 内 
容 详 见 Christian Szegedy 和 Wei Liu 等 人 的 论文 《Going Deeper with Convolutions》 










































































(D https://arxiv.org/abs/1312.4400。 
© https://arxiv.org/abs/1409.4842。 
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GoogLeNet 的 网 络 的 中 段 结构 如 图 6-10 所 示 。 
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图 6-10 
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论文 中 介绍 了 如 何 发 现 Inception 模型 的 最 优 结构 ， 如 图 6-11 所 示 。 原 始 的 设计 见 图 6-11 
的 左 侧 ， 使 用 1X1, 3x3, 5x5 的 卷 积 核对 应 图 像 的 区 域 ， 然 后 连接 起 来 到 全 连接 层 。 降 维 后 
的 设计 如 图 6-11 的 右 侧 ， 使 用 1x1 的 卷 积 核 进 行 降 维 ， 在 全 连接 层 将 1x1、3x3、5x5 的 卷 积 
结果 连接 起 来 。 这 样 做 使 网 络 的 宽度 和 深度 均 可 扩大 。 使 用 了 Inception 模型 的 结构 可 以 有 2 一 
3 倍 的 加 速 。 

























































































连接 
EXE 











&| 6-11 























GoogLeNet 的 主要 思想 是 围绕 “深度 ”和 “宽度 ”去 实现 的 。 

CD 深度 。 层 数 更 深 ,论文 中 采用 了 22 层 。 为 了 避免 梯度 消失 问题 ，GoogLeNet 巧妙 地 在 
不 同 深度 处 增加 了 两 个 损失 函数 来 避免 反 向 传播 时 梯度 消失 的 现象 。 

(2) 宽度 。 增 加 了 多 种 大 小 的 卷 积 核 ， 如 1X1、3X3、5X5， 但 并 没有 将 这 些 全 都 用 在 特 
征 映 射 上 ， 都 结合 起 来 的 特征 映射 厚度 将 会 很 大 。 但 是 采用 了 图 6-11 右 侧 所 示 的 降 维 的 Inception 
模型 ， 在 3X3、5X5 卷 积 前 ， 和 最 大 池 化 后 都 分 别 加 上 了 1X1 的 卷 积 核 ， 起 到 了 降低 特征 映 
射 厚度 的 作用 。 
























































3. ResNet 





把 网 络 加 深 和 增强 卷 积 模块 功能 两 个 演化 方向 相 结 合 ， 诞 生 了 ResNet (Residual Network, 
残 差 网 络 )。ReNet 是 2015 年 ILSVRC 营 赛 中 不 依赖 外 部 数据 的 物体 检测 和 物体 识别 两 个 项 目 
的 冠军 ， 是 由 MSRA 何 凯 明 团 队 提出 的 ， 训 练 深 达 152 层 的 网 络 。 同 时 ，MSRA 也 是 2015 年 
ImageNet 竞赛 的 大 赢家 ， 在 分 类 、 检 测 、 定 位 以 及 COCO 数据 集 上 的 检测 Cdetection) 和 分 隔 
(segmentation)， 都 获得 了 冠军 。 图 6-12 展示 的 是 一 个 34 层 的 ResNet 的 结构 。 残 差 网 络 的 更 
多 内 容 详 见 Kaiming He、Xiangyu Zhang、Shaoqing Ren 和 Jian Sun 的 论文 《Deep Residual Learning 





















































for Image Recognition) '. 

按照 一 般 的 经 验 ， 只 要 没有 发 生 梯 度 消失 或 者 梯度 爆炸 ， 并 且 不 过 拟 合 ， 网 络 应 该 是 越 深 
越 好 。 但是， 论文 作者 在 CIFAR10 上 训练 网 络 时 却 发 现 ， 层 数 从 20 层 增加 到 56 层 ， 错 误 率 上 
升 了 ， 准 确 率 下 降 了 ， 如 图 6-13 所 示 。 
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(D https://arxiv.org/abs/1512.03385 
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34 层 残 差 网 络 
图 像 


7X7 conv,64,/2 


i- 


pool,/2 


3X3 conv,128/2 E 
3X3convl28 | 一 


3x3 i 


3X3 conv,256 ^ 


BE 


avg pool 


fc 1000 


图 6-12 
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Ed 56 层 
x 20 
i10 E 
56 层 g 
E 
20 
0 1 1 1 1 1 1 0 1 1 1 L 1 
1 2 3 4 5 6 1 2 3 5 6 
iter.(le4) iter.(le4) 
图 6-13 





这 种 情况 被 称 为 网 络 退 化 (network degradation )。 为 此 ResNet H 














( 指 图 6-12 中 卷 积 层 之 间 的 带 箭头 的 曲线 部 分 )， 将 输入 跳 层 传递 与 卷 积 


关于 ResNet PRŽ (residual) 的 含义 ， 甚 实 是 如 果 能 用 几 层 网 络 去 逼近 一 个 复杂 的 非 线 
类 ， 那 么 同样 可 以 用 这 几 层 网 络 去 通 近 它 的 残 差 函数 Cresidual 


dt ni 


function) F(x)= H(x)—x, Jf 





M Hoo) miu E Fr R4) 


















































6.2.3 ”从 分 类 任务 到 检测 任务 


从 分 类 任务 到 检测 任务 这 个 演化 方向 经 历 了 从 R-CNN 到 Fast R-CNN， 再 到 Faster R-CNN 
的 演化 。 





VOC、MSCOCO 数据 集 j] 





特 





T 


建议 的 
Fast R-CNN 是 R-CNN 的 加 速 版 本 ， 将 最 后 建议 的 p dst lu 
征 映射 上 ， 这 样 一 张 图 片 只 需要 提取 一 次 特征 ， AASER TER. 但 Fast R-CNN fs BOR 
颈 在 RPN 上 。 此 外 ，Fast R-CNN 支持 多 类 物体 的 同时 检测 ， 其 和 





R-CNN 可 以 看 作 是 Region Proposal Networks” 
上 都 曾经 取得 过 很 好 的 效果 。 但 它 的 主要 缺点 是 
p (region) 有 儿 干 个， 多数 都 是 互相 重 芝 的 ， 重 半 的 部 分 会 被 多 次 重复 提取 特性 。 


UM I CNN 的 最 后 一 个 卷 积 层 的 




































































FP 引入 了 一 个 shortcut 结构 


的 结果 相 加 。 





日 我 们 认为 优化 残 差 映射 要 比 直 接 优化 HCx) 简 单 。 

















CRPN) 和 CNN 结合 的 力作 。 在 ImageNet、 


重复 计算 ， 因 为 最 后 




















高 级 辅助 驾驶 系统 的 关键 技术 之 一 。 


Fater-R-CNN 将 RPN 也 交 给 CNN 来 做 , 于 























行人 与 车 辆 检测 技术 就 是 汽车 


是 速度 更 快 , 可 以 达到 实时 。 详 见 Shaoqing Ren, 





Kaiming He、Ross Girshick 和 Jian Sun 的 论文 《Faster R-CNN: Towards Real-Time Object Detection 
with Region Proposal Networks》 


关于 检测 任务 如 图 片 目 标 检测 、 视 频 目标 检测 〈VID) 的 更 多 资料 





© RPNs 是 指 从 任意 尺寸 
在 最 后 卷 积 得 到 的 特征 
一 个 低 维 向 量 ， 如 256D 或 S12D， 最 后 将 这 个 低 维 向 量 送 入 到 两 个 全 连接 层 ， 即 box 回归 层 Cbox-regression layer) 
和 box 分 类 层 Cbox- classification layer)。 
































青 读者 自行 查阅 。 























的 图 片 中 得 到 一 系列 的 带 有 识别 出 物体 概率 分 数 的 建议 区 域 。 具体 流程 是 使 用 一 个 小 的 网 络 




















映射 EX 











行 滑动 扫描 ， 这 个 滑动 的 网 络 每 次 与 特征 映射 上 的 窗 



































© https://arxiv.org/abs/1506.01497 











进行 全 连接 ， 然后 映射 到 
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6.2.4 增加 新 的 功能 模块 


增加 新 的 功能 模块 这 个 演化 方向 主要 涉及 FCN ( 反 卷 积 )、STNet、CNN 与 RNN/LSTM 的 
混合 架构 。 这 部 分 涉及 的 知识 较 深 ， 更 多 资料 请 读者 自行 查阅 。 

















6.3 MNIST 的 AlexNet 实现 




















接 下 来 我 们 就 试 试用 TensorFlow 来 构建 一 个 网 络 模型 (这 里 以 AlexNet 为 例 )。 构 建 好 模 
型 后 ， 使 用 MNIST 数据 来 看 看 训练 结果 如 何 。 

现在 我 就 一 步 步 介 绍 如 何 将 一 个 好 的 开源 模型 (如 AlexNet) 在 TensorFlow 上 实现 。MNIST 
在 TensorFlow 的 例子 中 是 用 CNN 去 训练 的 ， 而 我 们 把 原来 普通 的 CNN 更 改 成 AlexNet。 这 里 
我 主要 是 参考 代码 https://github.com/aymericdamien/TensorFlow-Examples/blob/master/examples/ 
3 NeuralNetworks/convolutional network.py 和 https://github.com/tensorflow/models/blob/master/ 
tutorials/image/alexnet/alexnet benchmark.py， 然 后 根据 AlexNet 的 网 络 结构 图 来 实现 。 

同时 ， 一 次 完整 的 训练 模型 和 评估 模型 的 过 程 一 般 分 为 3 个 步骤 ， 加 载 数据 ， 定 义 网 络 模 
型 ， 训 练 模型 和 评估 模型 。 接 下 来 就 分 成 这 3 个 部 分 讲解 我 们 的 代码 。 











































































































6.3.1 ”加 载 数据 


在 加 载 数 据 的 过 程 中 ， 我 们 还 要 定义 模型 的 超 参 数 、 模 型 所 用 的 网 络 的 参数 以 及 数据 的 输 
入 。 如 下 : 











import tensorflow as tf 


# 输入 数据 
from tensorflow.examples.tutorials.mnist import input data 
mist = input data.read data sets("/tmp/data/", one hot=True) 


# 定义 网 络 的 超 参数 
learning rate = 0.001 
training iters = 200000 
batch size = 128 
display step = 10 


n input = 784 # 输入 的 维度 (img shape: 28x28) 
n classes = 10 4 标记 的 维度 (0-9 digits) 
dropout = 0.75 4 Dropout 的 概率 ， 输 出 的 可 能 性 





输入 占 位 符 
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x = tf.placeholder(tf.float32, [None, n input]) 
y = tf.placeholder(tf.float32, [None, n classes]) 
keep prob = tf.placeholder(tf.float32) #dropout 


6.3.2 ”构建 网 络 模型 


接 下 来 我 们 定义 AlexNet 需要 用 到 的 卷 积 、 池 化 和 规范 化 操作 。 为 了 简单 ， 我 们 将 这 些 功 
能 封装 起 来 。 代 码 如 下 : 





# 定义 卷 积 操 作 

def conv2d(name, x, W, b, strides-1): 
x = tf.nn.conv2d(x, W, strides-[1, strides, strides, 1], padding-'SAME') 
x = tf.nn.bias add(x, b) 
return tf.nn.relu(x, name-name) # 使 用 relu 激活 函数 























# 定义 池 化 层 操作 
def maxpool2d (name, x, k=2): 
return tf.nn.max pool (x, ksize-[1, k, k, 1], strides-[1, k, k, 1], 
padding-'SAME', name-name) 


# 规范 化 操作 
def norm(name, 1 input, lsize-4): 
return tf.nn.lrn(l input, lsize, bias-1.0, alpha-0.001 / 9.0, 
beta-0.75, name-name) 


定义 所 有 的 网 络 参 数 〈 网 络 参 数 的 具体 值 详 见 AlexNet 的 结构 图 ， 参 见 图 6-6), WF: 





























# 定义 所 有 的 网 络 参 数 
weights = ( 




















'wcl': tf.Variable(tf.random normal([11, 11, , 96])), 
'wc2': tf.Variable(tf.random normal([5, 5, 96, 256])), 
'wc3': tf.Variable(tf.random normal([3, 3, 256, 384])), 
'wc4': tf.Variable(tf.random normal([3, 3, 384, 384])), 
'wc5': tf.Variable(tf.random normal([3, 3, 384, 256])), 
'wdl': tf.Variable(tf.random normal([4*4*256, 4096])), 
'wd2': tf.Variable(tf.random normal([4096, 4096])), 
'out': tf.Variable(tf.random normal([4096, 10])) 

} 

biases = { 
'bcl': tf.Variable(tf.random normal([96])), 
'pc2': tf.Variable(tf.random normal([256])), 
'bc3': tf.Variable(tf.random normal([384])), 
'bc4': tf.Variable(tf.random normal([384])), 
'bc5': tf.Variable(tf.random normal([256])), 
'bdl': tf.Variable(tf.random normal([4096])), 
'bd2': tf.Variable(tf.random normal([4096])), 
'out': tf.Variable(tf.random normal([n classes])) 
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定义 AlexNet 的 网 络 模型 : 


# 定义 整个 网 络 

def alex net(x, weights, biases, dropout): 
Reshape input picture 

x = tf.reshape(x, shape-[-1, 28, 28, 1] 





conv1 = conv2d('convl', x, weights['wcl'], biases['bc1l']) 
下 采样 

pooll = 
规范 化 
norml = norm('norml', pooll, lsize-4) 





maxpool2d('pooll', convi, k=2) 





第 二 层 卷 积 
卷 积 
conv2 = conv2d('conv2', convi, weights['wc2'], biases['bc2']) 


最 大 池 化 (向 下 采样 





pool2 = maxpool2d('pool2', conv2, k-2) 
规范 化 
norm2 = norm('norm2', pool2, lsize-4) 
































第 三 层 卷 积 
卷 积 

conv3 = conv2d('conv3', norm2, weights['wc3'], biases['bc3']) 
下 采样 

pool3 = maxpool2d('pool3', conv3, k-2) 
规范 化 

norm3 = norm('norm3', pool3, lsize-4) 
第 四 层 卷 积 

conv4 = conv2d('conv4', norm3, weights['wc4'], biases['bc4']) 
第 五 层 卷 积 

conv5 = conv2d('conv5', norm3, weights['wc5'], biases['bc5']) 
下 采样 

pool5 = maxpool2d('pool5', conv5, k-2) 
规范 化 

norm5 = norm('norm5', pool5, lsize-4) 
全 连接 层 1 











fcl = tf.reshape(norm5, [-1, weights['wdl'].get shape().as list()[0]]) 
fcl = tf.add(tf.matmul(fcl, weights['wdl']), biases['bd1']) 

fcl = tf.nn.relu(fcl) 

# dropout 

fcl = tf.nn.dropout(fcl, dropout) 


# 全 连接 层 2 
fc2 = tf.reshape(fcl, [-1, weights['wdl'].get shape().as list()[01]) 
fc2 = tf.add(tf.matmul(fc2, weights['wd1l']), biases['bd1']) 
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fc2 = tf.nn.relu(fc2) 
# dropout 
fc2 = tf.nn.dropout (fc2, dropout) 





# 输出 层 
out = tf.add(tf.matmul(fc2, weights['out']), biases['out']) 
return out 


构建 模型 ， 定 义 损失 函数 和 优化 器 ， 并 构建 评估 函数 : 














# 构建 模型 
pred = alex net (x, weights, biases, keep prob) 


# 定义 损失 函数 和 优化 器 


cost = tf.reduce mean(tf.nn.softmax cross entropy with logits(pred, y)) 


optimizer - tf.train.AdamOptimizer(learning rate-learning rate).minimize (cost) 


# 评估 函数 
correct pred = tf.equalitf.argmax(pred, 1), tf.argmaxi(y, 1) 





accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32)) 


6.3.3 ”训练 模型 和 评估 模型 
训练 模型 和 评估 模型 的 代码 如 下 : 


# 初始 化 变量 


init = tf.global variables initializer() 





with tf.Session() as sess: 
sess.run(init) 
step = 1 
# 开始 训练 ， 直 到 达到 training iters, H[ 200000 
while step * batch size < training iters: 





























batch x, batch y = mnist.train.next batch (patch size) 
sess.run(optimizer, feed dict-(x: batch x, y: batch y, 
keep prob: dropout]) 
if step $ display step -- 
# 计算 损失 值 和 准确 度 ， 输 出 


loss, acc = sess.run([cost, accuracy], feed dict={x: batch x, 





y: batch y, 
keep prob: 1.]) 
print("Iter " + str(step*batch size) + ", Minibatch Loss- " + N 
"(:.6f)".format(loss) + ", Training Accuracy- " + N 


"(:.5£]".format (acc)) 
step += 1 
print("Optimization Finished!") 


# 计算 测试 集 的 准确 度 
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print ("Testing Accuracy:", \ 
sess.run (accuracy, feed dict={x: mnist.test.images[:256], 





y: mnist.test.labels[:256], 
keep_prob: 1.})) 


输出 结果 如 下 : 
Iter 1280, Minibatch Loss= 397151.531250, Training Accuracy= 0.43750 


Iter 25 
Iter 38 


60, Minibatch Loss= 358224.781250, Training Accuracy= 0.48438 
40, Minibatch Loss= 208550.218750, Training Accuracy= 0.70312 














我 们 也 可 以 像 实 现 AlexNet 的 模型 这 样 , 用 TensorFlow 实现 其 他 网 络 (如 VGGNet、 GoogLeNe 


ResNeO, H. 





体 实 现 的 步骤 我 们 总 结 如 下 : 




















C1) 仔细 研读 该 网 络 的 论文 ， 理 解 每 一 层 的 输入 /和 输出 值 以 及 网 络 结构 ; 
(2) 按照 加 载 数 据 ， 定 义 网 络 模型 ， 训 练 模型 和 评估 模型 这 样 的 步骤 实现 网 络 。 


读者 可 以 从 简单 的 VGGNet H 












































slim/nets 有 所 有 这 儿 个 经 典 网 络 的 实现 方式 。 

















6.4 ”循环 神经 网 络 ” 





t、 


F 始 动手 试 试 。https://github.com/tensorflow/models/tree/master/ 


循环 神经 网 络 主要 是 自然 语言 处 理 (natural language processing, NLP) 应 用 的 一 种 网 络 模 





型 。 它 不 同 于 传统 的 前 馈 神 经 网 络 (feed-forward neural network，FNN )， 循 环 神经 网 络 在 网 络 


















































引入 了 定性 循环 , 使 信号 从 一 个 神经 元 传递 到 男 一 个 神经 元 并 不 会 马上 消失 , 而 是 继续 存活 。 











这 就 是 循环 # 
在 传统 


申 经 网 络 名 称 的 来 历 。 
的 神经 网 络 



























































此 之 间 没 有 连接 。 这 种 网 络 结构 应 用 到 文本 处 理 时 却 有 难度 。 例 如 ， 我 们 要 预测 某 个 单词 





下 一 个 单词 是 什么 ， 就 需要 用 到 前 面 的 单词 。 循 环 神经 网 络 的 解决 方式 是 ， 隐 藏 层 的 输入 不 
仅 包 括 上 一 层 的 输出 ， 还 包括 上 一 时 刻 该 隐藏 层 的 输出 。 理 论 上 ， 循 环 神经 网 络 能 够 包含 前 
面 的 任意 多 个 时 刻 的 状态 ， 但 实践 中 ， 为 了 降低 训练 的 复杂 性 

















输出 。 




























































































般 只 处 理 前 面 几 个 状态 






































循环 神经 网 络 的 特点 在 于 它 是 按时 间 顺 序 展开 的 ， 下 一 步 会 受 本 步 处 理 的 影响 ， 网 络 模型 
如 图 6-14 所 示 。 在 计算 时 间 为 2 的 那 步 时 ， 输 入 层 和 前 一 步 〈《 时 间 为 1) 的 数据 都 会 对 时 间 为 


























2 的 那 步 的 输出 值 有 影响 。 








， 输 入 层 到 输出 层 的 每 层 直 接 是 全 连接 的 ， 但 是 层 内 部 的 神经 元 彼 


] 


i 
B 








(本 节 代 码 参 考 https;//github.com/aymericdamien/TensorFlow-Examples/blob/master/examples/3 NeuralNetworks/recurrent _ 


network.py， 


并 做 了 相应 修改 。 





125 


126 Pp 第 一 篇 ”基础 篇 























循环 神经 网 络 的 训练 也 是 使 用 
w2 和 w3 是 共享 的 。 但 是 ， 其 在 反 向 传播 ， 



























































误差 反 向 传播 (backpropagation, BP) 算法 ， 并 且 参 数 wl. 
， 不 仅 依 赖 当 前 层 的 网 络 ， 还 依赖 前 
络 ， 这 种 算法 称 为 随时 间 反 向 传播 (backpropagation through time, BPTT) 算法 。BPTT 算法 是 





























而 若干 层 的 网 























BP 算法 的 扩展 , 可 以 将 加 载 在 网 络 
络 转化 为 动态 网 络 。 











6.5 ”循环 神经 网 络 友 展 


循环 神经 网 络 的 发 展 如 图 





6-15 所 示 。 







增强 隐藏 
层 的 功能 


Vanilla RNN 
Bidirectional RNN 





双向 化 及 
加 深 网 络 





图 6-15 

















上 的 时 序 信和 号 按 层 展开 , 这 样 就 使 得 前 馈 神 经 网 络 的 静态 网 








两 者 结合 


> 





最 初 Vanilla RNN 的 改进 和 CNN 的 改进 类 似 ， 也 是 朝 着 两 个 方向 演化 : 一 是 隐藏 层 的 功能 逐 














潮 增 强 ， 二 是 网 络 的 双向 化 及 加 深 。 本 节 内 容 参考 《Recurrent Neural Networks, Part 1-Introduction 
© 

to RNNs》 。 

© 本 图 出 自 Alex Graves 的 论文 《Supervised Sequence Labelling with Recurrent Neural Networks) : http://www.cs.toronto. 











edu/ 一 graves/preprint.pdf。 


@ http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1 -introduction-to-rnns/ 
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6.5.1 “增强 隐藏 层 的 功能 


1. 简单 RNN 











简单 RNN (Simple RNN, SRNND 是 一 个 3 层 网 络 ， 在 隐藏 层 〈 也 叫 上 下 文 层 ) 增加 了 上 
下 文 单元 。 图 6-16 中 的 CONTEXT() 是 隐藏 展 ，CONTEXT(-D 是 上 下 文 单元 。 上 下 文 单 元 节 
点 与 隐藏 层 中 的 节点 的 连接 及 权 值 都 是 固定 的 。 


INPUT(/) OUTPUT(?) 















































CONTEXT(?) 


CONTEXT(/-1) 


Fd 6-16 





如 图 6-16 所 示 ， 假 设 当前 是 上 时 刻 ， 则 分 3 步 来 预测 Pw): 

e 单词 ww 映射 到 词 向 量 ， 记 作 INPUT; 

e 连接 上 一 次 训练 的 隐藏 层 CONTEXT(1-1)， 通 过 sigmoid 激活 函数 生成 当前 t 时 刻 的 
CONTEXTY(?); 

e 利用 softmax 函数 ， 预 测 POw)。 



































2. LSTM 











一 般 的 RNN 只 能 与 前 面 若干 序列 有 关 ， 若 超过 十 步 ， 就 很 容易 产生 梯度 消失 或 者 梯度 爆 
炸 问 题 。 产 生 梯度 消失 是 因为 导数 的 链 式 法 则 导致 了 连 乘 ， 造 成 梯度 指数 级 消失 。 通 过 引入 单 
元 (cell) 结构 ,得 到 了 RNN 的 改进 模型 长 短期 记忆 (Long-Short Term Memory, LSTM) 模型 ， 
这 个 模型 可 以 解决 梯度 消失 的 问题 ， 如 图 6-17 所 示 。 

可 以 看 出 ， 把 图 6-14 中 RNN 隐藏 层 中 的 黑 圆 圈 换 成 图 6-17 里 LSTM 中 的 Block， 就 得 到 
LSTM 模型 了 。 这 个 Block 里 面 








































































































而 主要 有 1 个 单元 (cell)，3 个 门 (gate)。 
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输入 不 
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e 单元 (cell): 主要 有 一 个 状 
e 输入 门 (input gate) IH 
e 忘记 门 (forget gate): | 


3. GRU 











JU EA 














j 来 设 








N 
o 


B3 

















数 ， 用 来 记录 状态 。 


Hi] Coutput gate): 对 参数 的 输入 、 输 昌 
选择 性 遗忘 的 权重 ， 原 始 RNN 在 这 是 


TS 











8 进行 处 理 。 














有 权重 是 1 。 











GRU”(Gated Recurrent Unit Recurrent Neural Network) 中 在 隐藏 层 上 不 同 距 离 处 的 单 

















有 两 个 门 ， 即 重 置 门 > 和 更 新 门 zo 
[之 前 的 记忆 ， 更 新 
































© 本 图 出 
edu/~ graves/preprint.pdf 






































he AR, ERER, (IXA 
重 进 行 更 新 。 
如 图 6-18 所 示 , GRU [ij 











4 思想 和 LSTM 的 十 分 相似 .GRU 
重 置 门 决定 如 何 组 合 新 





词 对 当前 的 隐藏 层 的 状态 的 影响 不 同 ,2 
隐藏 层 的 状态 的 影响 上 进行 了 距离 加 权 ， 距 离 越 远 权 值 越 





H 


H 














误差 的 对 应 单词 的 权 





























门 决定 留 下 多 少 之 前 的 记忆 。 如 
果 把 重 置 门 都 设 为 1, 更 新 门 都 设 为 0, 就 得 到 普通 的 RNN 
模型 。 



































E 离 越 远 的 影响 越 小 。 在 每 个 前 面 





























Recurrent Neural Networks on Sequence Modeling): https://arxiv.org/abs/1412.3555. 





的 状态 对 当前 的 


Alex Graves 的 论文 《Supervised Sequence Labelling with Recurrent Neural Networks) : http://www.cs.toronto. 


Q 详 见 Junyoung Chung. Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio 等 人 的 论文 《Empirical Evaluation of Gated 


通 j 
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4. CW-RNN? 


CW-RNN (Clockwork RNN) 是 一 种 使 用 时 钟 频率 驱动 的 RNN。 它 将 隐藏 层 分 为 几 个 组 ， 
过 不 同 的 隐藏 层 组 工作 在 不 同 的 时 钟 频率 下 来 解决 长 时 间 依 赖 问题 。 组 按照 自己 规定 的 



































时 钟 频率 对 输入 进行 处 理 。 将 时 钟 时 间 离 散 化 ， 不 同 的 时 间 点 不 同 的 隐藏 层 组 工作 ， 所 有 的 隐 


Lh 


JER 


E! 



































民 组 在 每 一 步 不 会 都 同时 工作 ， 这 样 就 加 快 网 络 的 训练 。 此 外 ， 时 钟 周 期 大 的 组 的 神经 元 速 
曼 ， 周 期 小 的 速度 快 ， 连 接 方向 是 周期 大 的 连接 到 周期 小 的 ,周期 小 的 不 会 连接 到 周期 大 的 。 




































































CW-RNN 的 结构 图 如 图 6-19 所 示 。 








TS 
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L 
输入 层 












































经 元 个 数 相同 ， 


A 





如 图 6-19 所 示 , 隐藏 层 中 的 神经 元 会 被 划分 为 若干 个 组 , 记 为 g, 每 一 组 中 的 






































记 为 ,并 为 每 一 个 组 分 配 一 个 时 钟 周 期 TE (Ty, To T3, 每 一 个 组 内 的 所 有 神经 元 是 全 连接 的 ， 
但 是 组 j 到 组 是 循环 连接 ， 并 需要 满足 九 大 于 也 。 如 图 6-19 所 示 ， 这 些 组 按照 时 钟 周期 递增 从 左 
到 右 进 行 排序 ， 即 站 <72><…<7s， 连 接 方向 便 是 从 右 到 左 ， 从 速度 慢 的 组 连接 到 速度 快 的 组 。 


6. 


与 





















































































































































5.2 ”双向 化 及 加 深 网 络 

1. 双向 RNN 

双向 RNN”(Bidirectional RNN) 假设 当前 〈 第 上 步 ) 的 输出 不 仅 与 前 面 的 序列 有 关 ， 而 上 
后 面 的 序列 有 关 。 原 始 的 双向 RNN 是 一 个 相对 较 简 单 的 RNN， 由 两 个 RNN 上 下 闭 加 在 一 
组 成 。 输 出 由 这 两 个 RNN 的 隐藏 层 的 状态 决定 ， 如 图 6-20 所 示 。 

















© 


© 


本 小 节 参 考 Jan Koutník, Klaus Greff, Faustino Gomez, Jurgen Schmidhuber 的 论文 《A Clockwork RNN}: https:// 
arxiv.org/pdf/1402.3511.pdf. 


Mike Schuster 和 Kuldip K. Paliwal 的 论文 《Bidirectional Recurrent Neural Networks) o 


130 »» 第 一 篇 。 基础 篇 


前 向 传播 状态 


反 向 传播 状态 





























前 的 双向 RNN 有 所 发 展 ， 例 如 ， 将 双向 的 思想 和 LSTM、GRU 结合 ， 变 成 双向 LSTM、 
双向 GRU 等 。 

















2. 深度 双向 RNN 


“双向 ”与 “深度 ”结合 ， 就 产生 了 深度 双向 RNN (Deep Bidirectional RNN), 深度 双向 RNN 
与 双向 RNN 类 似 ， 但 在 隐藏 层 琶 加 了 多 层 ， 使 每 一 步 的 输入 有 多 层 网 络 ， 有 更 强大 的 表达 与 
学 习 能 力 ， 但 需要 更 多 的 训练 数据 。 图 6-21 左 侧 表示 了 一 个 多 个 隐藏 层 的 RNN， 右 侧 表示 深 
度 双 向 LSTM (DBLSTM)。 





























xs Jit X Jess 


























CO 图 出 自 Alex Graves, Navdeep Jaitly and Abdel-rahman Mohamed 的 论文 《HYBRID SPEECH RECOGNITION WITH 
DEEP BIDIRECTIONAL LSTM?: https://www.cs.toronto.edu/— graves/asru 2013.pdf 








E 


Ds 





KERAMAT RNN 的 发 


末 络 。 除 此 之 外 , RNN 在 训练 的 过 程 的 学 
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习 算 法 也 逐渐 丰富 ， 





如 BPTT (Back Propagation Through Time), RTRL (Real-time Recurrent Learning), EKF (Extended 








Kalman Filter) 等 











& T 以 自行 


T, dB 











J 查阅 相关 资料 进行 学 


6.6 TensorFlow Model Zoo 





































































































































































































TensorFlow 的 模型 都 位 于 https://github.com/tensorflow/models。 正 如 5.2 节 中 介绍 的 ， 这 个 
目录 中 有 很 多 图 像 和 语音 处 理 的 模型 ， 可 以 直接 拿 来 用 。 这 些 模型 的 检查 点 文件 (参考 4.8.1 
节 ckpt 模型 文件 的 保存 ) 有 的 被 打 成 压缩 包 ， 可 以 直接 下 载 ， 当 作 预 训练 横 型 使 用 ， 如 表 6-1 
所 示 。 

表 6-1 

模型 检查 点 
Inception V1 inception v1 2016 08 28.tar.gz 
Inception V2 inception v2 2016 08 28.tar.gz 
Inception V3 inception v3 2016 08 28.tar.gz 
Inception V4 inception v4 2016 09 09.tar.gz 
Inception-ResNet-v2 inception resnet v2.tar.gz 
ResNet 50 resnet v1 50.tar.gz 
ResNet 101 resnet v1 10l.tar.gz 
ResNet 152 resnet v1 152.tar.gz 
VGGl16 vgg l6.tar.gz 
VGGI19 vgg 19.tar.gz 

此 外 ,我 们 知道 ，Caffe 因为 开源 时 间 比 较 久 ， 有 很 多 训练 好 的 模型 ， 读 者 可 以 利用 它 作为 
引 己 训练 项 目的 预 训 练 模型 ， 大 大 地 减少 训练 时 间 和 迭代 次 数 。Caffe 的 模型 位 于 Caffe Model 

Zoo 中 ， 我 们 可 以 用 工具 ^W Caffe 的 模型 转换 为 TensorFlow 的 模型 。 




















6.7 ”其 他 人 研究 进展 














了 解 了 CNN 和 RNN 的 发 展 ， 现 在 1 


NI 








了 来 看 看 深度 学 习 还 有 什么 令 人 激动 的 研究 进展 。 目 前 
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TensorFlow HHEEL, Er HIER 























出 现 ， 在 开源 社 








XW GitHub 上 就 会 立刻 有 人 将 其 仿 












































现 ， 并 且 很 多 也 会 慢 慢 合 并 到 Keras 等 第 三 











(D https://github.com/ethereon/caffe-tensorflow 























三 方 框架 中 ， 让 开罗 











2 人 员 运 用 新 的 算法 更 加 得 心 应 手 。 








132 Pp 第 一 篇 ”基础 篇 


6.7.1 强化 学 习 


强化 学 习 (reinforcement learning). 是 机 器 学 习 大 家 族 中 的 一 个 分 支 ， 并且 随 着 和 深度 神经 
网 络 相 结合 ， 体 现 出 更 强大 的 特性 ， 并 且 在 AlphaGo 的 改良 策略 网 络 (policy network) 中 ， 也 
到 了 强化 学 习 的 方法 。 

强化 学 习 介 于 有 监督 学 习 和 无 监督 学 习 之 间 。 在 强化 学 习 中 ， 只 有 很 少 的 标记 (奖励 )， 
这 些 标 记 还 有 延迟 。 模 型 通过 这 些 奖励 ， 不 断 学 习 在 环境 中 的 行为 。 

强化 学 习 主 要 用 在 游戏 、 下 棋 、 博 弈 这 类 有 得 分 并 且 有 很 多 步 操 作 的 活动 中 ， 主 要 是 用 来 
做 连续 决策 。 强 化 学 习 大 家 族 中 有 很 多 方法 ， 如 Q-learning, Sarsa, Policy Gradient, Actor Critic 
等 ， 一 般 包括 算法 更 新 和 思维 决策 两 个 部 分 。 如 果 与 神经 网 络 相 结合 ， 可 以 采用 深度 Q 网 络 
(Deep Q Network，DQN)。 目 前 也 有 很 多 使 用 Keras 的 开源 实现 ， 读 者 可 以 自行 查找 。 


























































































































































































































6.7.2 ”深度 森林 


我 们 知道 ， 使 用 深度 神经 网 络 训练 模型 时 ， 首 先 需要 大 量 的 训练 数据 ， 尤 其 是 很 多 标记 数 
Ju. 并 且 依 赖 强大 的 计算 设施 和 超 参 数 的 调节 。 周 志 华 教授 在 其 论文 《Deep Forest: Towards An 
Alternative to Deep Neural Networks) 中 提出 了 一 种 基于 树 的 新 方法 一 一 多 粒度 级 联 森林 
(multi-grained cascade forest, gcForest). gcForest 在 只 有 少量 数据 的 情况 下 也 可 以 训练 ， 并 且 超 
参数 比 深度 神经 网 络 少 得 多 ， 对 超 参 数 设 定 来 说 性 能 健壮 性 也 很 高 ， 所 以 使 用 gcForest 训练 起 
来 很 容易 。 此 外 ， 对 于 不 同 规模 或 者 不 同 数据 ， 也 能 使 用 默认 设 定 取 得 很 好 的 结果 。 

这 为 我 们 使 用 深度 神经 网 络 之 外 的 方法 打开 了 一 扇 门 。 未 来 的 深度 学 习 中 也 许 会 出 现 更 多 
神经 网 络 方向 外 的 思路 。 




































































































































































6.7.3 ”深度 学 习 与 艺术 


在 绘画 领域 , 有 一 个 非常 车 名 的 “艺术 风格 的 神经 网 络 算法 ”(A Neural Algorithm of Artistic 
Style)“。 这 个 算法 主要 是 进行 绘画 风格 的 迁移 。 例 如 ， 把 焚 高 、 毕 加 索 的 绘画 风格 应 用 在 选 
定 的 照片 上 。 也 就 是 说 ， 它 可 以 把 一 幅 图 片 的 风格 和 内 容 分 开 ， 从 而 把 A 图 片 的 风格 和 B 图 片 
的 内 容 组 合 起 来 ， 生 成 一 幅 风 格 化 的 内 容 图 片 。 在 美 图 秀 秀 、 魔 漫 相 机 、 脸 萌 等 软件 上 ， 也 有 
类 似 的 玩法 。 这 个 算法 也 已 经 有 了 采用 TensorFlow 的 开源 实现 。 读 者 可 以 自己 尝试 ， 探 究 参 
数 并 了 解 原理 。 
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(D https://arxiv.org/abs/1702.08835 
© Leon A. Gatys, Alexander S. Ecker, Matthias Bethge 的 论文 : https://arxiv.org/pdf/1508.06576v2.pdf 
© https://github.com/anishathalye/neural-style 
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TAI] MIDI 音频 旋律 作为 训练 








在 音乐 领域 ， 也 可 以 利用 深度 学 习 来 进行 创作 。 例 如 ， 

















数据 ， 采 用 RNN 来 生成 一 段 旋律 ， 有 了 这 段 旋律 ， 就 可 以 作为 后 续 创 作 的 种 子 和 灵感 ， 如 果 
输入 大 量 的 巴赫 、 贝 多 芬 、 肖 邦 的 乐曲 ， 还 可 以 模仿 他 们 的 作曲 风格 做 出 旋律 。 用 音乐 作曲 已 
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经 有 了 TensorFlow 的 开源 实现 。 






























































扩展 到 其 他 艺术 领域 ， 我 们 知道 ， 一 个 创作 者 的 天 赋 或 者 勤奋 的 大 量 积 累 是 创作 的 灵感 来 
源 ， 甚 至 有 时候 需要 从 生活 中 的 其 他 事物 中 寻找 灵感 。 记 得 大 张 伟 曾经 说 过 他 的 创作 过 程 就 是 
去 听 几 个 GB 的 歌 去 找 灵感 ， 每 月 要 去 听 儿 千 首 的 歌 。 深 度 学 习 可 以 帮 你 创作 一 些 旋律 小 样 ， 
















































































希望 可 以 作为 灵感 的 种 子 。 


6.8 小 结 


























本 章 主 要 介绍 了 卷 积 神经 网 络 和 循环 神经 网 络 的 发 展 过 程 ， 描 述 了 发 展 的 脉络 和 方向 ， 对 

















后 来 研究 中 设计 模型 结构 很 有 局 发 意义 。 此 外 ， 本 章 还 介绍 了 












































深度 学 习 研 究 中 的 其 他 进展 ， 如 
































强化 学 习 、 深 度 和 森林、 深度 学 习 在 音乐 和 绘画 上 的 进展 ， 都 是 目前 很 火 的 研发 方向 。 本 书 还 举 


3 








例 了 TensorFlow 对 AlexNet 的 实现 ， 以 及 TensorFlow 目前 完善 的 预 训 练 模型 社区 TensorFlow 

















Model Zoo， 读 者 熟练 后 ， 可 以 找到 跟 自 己 业务 模型 相近 的 预 




















1 练 模型 进行 训练 。 除 此 之 外 , XE 
































移 学 习 、One Shot 学 习 、 目 标 检 测 、 视 觉 跟踪 、 机 器 人 技术 








标 分 割 等 也 是 研究 的 热点 ， 读 者 











可 以 选择 自己 钻研 的 行业 潜心 研究 。 








(D https://github.com/tensorflow/magenta 
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iA s 


EH 


TensorFlow 的 高 级 框架 


得 益 于 TensorFlow 社 
TFLearn, TensorLayer 等 。 


者 快速 搭建 网 络 模型 ， 并 且 使 代码 简单 、 可 读 性 强 。 





区 的 繁荣 ， 诞 生日 












































使 用 元 框架 能 够 大 大 减少 编写 TensorFlow 代码 的 工作 量 ， 方 便 姑 


















































本 章 我 们 主要 计 


7.1 TFLearn 


TFLearn 是 一 个 建立 在 TensorFlow 顶部 的 模块 化 的 深度 学 习 框 架 , EN TensorFlow 提供 更 











井 解 官方 默认 文 持 的 Keras Mh 
































的 TFLearn 提供 的 高 级 API。 





























高 级 的 API， 以 便于 快速 实验 ， 同 时 保持 完全 透明 和 兼容 。 





7.1.1 加载 数据 














这 里 用 的 是 牛津 大 学 的 鲜花 数据 集 ”(Flower Dataset)。 这 个 数据 集 提供 了 17 个 类 别 的 鲜 
伦 数 据 ， 每 个 类 别 80 张 图 


注意 ， 在 代码 的 开始 需要 导入 用 到 的 与 卷 积 、 池 化 、 规 范 化 相关 的 类 ， 方 法 如 下 : 
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片 ， 并 且 图 片 有 大 量 的 姿态 和 光 的 变化 。 






































import tflearn 


from tflearn 
from tflearn 
from tflearn 
from tflearn 


.layers. 
.layers. 
.layers. 
.layers. 








core import input data, dropout, fully connected 





conv import conv 2d, max pool 2d 
normalization import local response normalization 


estimator import regression 


© 本 节 代 码 参 考 https://github.com/tflearn/tflearn/blob/master/examples/images/alexnet.py « 


Q) http://www.robots.ox.ac.uk/~vgg/data/flowers/17/ 


bi 许多 高 质量 的 元 框架 (metaframework)， 如 Keras, 


[发 


在 6.2 节 中 我 们 已 经 用 原生 的 TensorFlow 代码 完成 了 AlexNet。 读 者 可 能 已 经 感受 到 其 代 
人 码 的 元 长 ， 下 面 我 们 就 用 TFLearn 框架 ， 看 看 如 何 将 代码 写 得 简洁 。 
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import tflearn.datasets.oxflowerl7 as oxflowerl7 


X, Y = oxflowerl7.load data(one hot-True, 


7.1.2 ”构建 网 络 模型 








构建 AlexNet 网 络 模型 时 ， 直 接 但 





函数 来 构建 即 可 。 方 法 如 下 : 


7.1.3 


Liz 





# 构建 AlexNet 网 络 





networ 
networ 
network - max pool 2d(net 
network = local response 
networ 
network - max pool 2d(net 


local response 








k 

k 

k 

k 

k 

k 
network - 

k 

k 

k 

k 

k 

k 





network = conv 2d(network, 384, 3, activation-'relu') 

network = conv 2d(network, 384, 3, activation-'relu') 

network = conv 2d(network, 256, 3, activation-'relu') 

network - max pool 2d(network, 3, strides-2) 

network - local response normalization (network) 

network = fully connected (network, 4096, activation-'tanh') 
network = dropout(network, 0.5) 

network = fully connected (network, 4096, activation-'tanh') 
network = dropout(network, 0.5) 

network - fully connected(network, 17, activation-'softmax') 


= input data (shape-[None, 
= conv 2d (network, 


= conv 2d (network, 





En 

















E 





22], 22T; 319 
96, 11, strides=4, 
work, 3, strides=2) 


_normalization (network) 


2506; 5; 
work, 3, 


activation-'relu') 
strides-2) 


normalization (network) 


network = regression(network, optimizer-'momentum', 


loss=' 


learning rate-0.001) # 回归 操作 ， 同 时 规定 网 络 所 使 


训练 模型 


构建 完 模型 之 后 ， 就 可 以 训 
的 AlexNet 模型 的 检查 点 文人 





ni 








TT 





model - 


model.fit(X, Y, 


show metric-True, batch size-64, 
snapshot epoch- 


tflearn.DNN (network, 
max checkpoints-1, 
n epoch-1000, validation set-0.1, 


categorical crossentropy', 


resize pics- (227, 


221) 








] TFLearn 中 的 卷 积 、 池 化 、 规 范 化 、 全 连接 、dropout 


activation-'relu') 





























的 学 习 率 、 损 失 函 数 和 优化 器 





练 模型 了 。 这 里 我 们 加 了 一 步 ， 就 是 假设 有 训练 好 或 训练 到 一 











， 直 接 载 入 ， 方 法 如 下 : 


False, 








可 见 ， 代 码 简洁 得 让 人 惊讶 。 这 就 是 第 三 方 库 的 优点 。 





7.2 Keras 


Keras 是 一 个 高 级 的 Python 





IHI 


神经 网 络 








checkpoint path-'model alexnet', 
tensorboard verbose-2) 
shuffle-True, 
snapshot step-200, 
run id-'alexnet oxflowers17' 


架 ， 其 文档 详 见 https://keras.io/。Keras 已 经 被 添加 
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到 TensorFlow 中 ， 成 为 其 默认 的 框架 ， 为 TensorFlow 提供 更 高 级 的 API。 

如 果 读 者 不 想 了 解 TensorFlow 的 细节 ， 只 需要 模块 化 ， 那 么 Keras 是 一 个 不 错 的 选择 。 如 
果 将 TensorFlow 比喻 为 编程 界 的 Java 或 CH, IMA Keras 就 是 编程 界 的 Python。 它 作为 
TensorFlow 的 高 层 封 装 ， 可 以 与 TensorFlow 联合 使 用 ， 用 它 快速 搭建 原型 。 

另外 ，Keras 兼容 两 种 后 端 ， 即 Theano 和 TensorFlow， 并 且 其 接口 形式 和 Torch 有 几 分 相 
像 。 掌 握 Keras 可 以 大 幅 提 升 对 开发 效率 和 网 络 结构 的 理解 。 
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7.2.1 Keras 的 优点 


Keras 是 高 度 封装 的 ， 非 常 适合 新 手 使 用 ， 代 码 更 新 速度 比较 快 ， 示 例 代 码 也 比较 多 ， 文 
档 和 讨论 区 也 比较 完善 。 最 重要 的 是 ，Keras 是 TensorFlow 官方 支持 的 。 当 机 器 上 有 可 用 的 GPU 
时 ， 代 码 会 自动 调用 GPU 进行 并 行 计 算 。 
由 上 描述 了 它 的 几 个 优点 ， 具 体 如 下 。 
e 模块 化 : 模型 的 各 个 部 分 ， 如 神经 层 、 成 本 函数 、 优 化 器 、 初 始 化 、 激 活 函 数 、 规 范 
化 都 是 独立 的 模块 ， 可 以 组 合 在 一 起 来 创建 模型 。 
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Keras 官方 网 

































































e 极 简 主义 : 每 个 模块 都 保持 简短 和 简单 。 
e 易 扩 展 性 : 很 容易 添加 新 模块 ， 因 此 Keras 适 于 做 进一步 的 高 级 研究 。 
e 使 用 Python 语言 : 模型 用 Python 实现 ， 非 常 易于 调试 和 扩展 。 











7.2.2 Keras 的 模型 2 














Keras 的 核心 数据 结构 是 模型 。 模 型 是 用 来 组 织 网 络 层 的 方式 。 模 型 有 两 种 ， 一 种 叫 
Sequential 模型 ， 另 一 种 叫 Model 模型 。Sequential 模型 是 一 系列 网 络 层 按 顺序 构成 的 栈 ， 是 单 
输入 和 单 输出 的 ， 层 与 层 之 间 只 有 相 邻 关系 ， 是 最 简单 的 一 种 模型 。Model 模型 是 用 来 建立 更 
复杂 的 模型 的 。 

这 里 先 介绍 简单 的 Sequential 模型 的 使 用 (7.2.3 节 将 会 以 一 个 示例 来 介绍 Model 模型 )。 首 先 
是 加 载 数据 , 这 里 我 们 假设 数据 已 经 加 载 完毕 , 是 X train, Y train 和 X test, Y_test。 然 后 构建 模型 










































































from keras.models import Sequential 

from keras.layers import Dense, Activation 
model = Sequential() 
model.add(Dense(output dim-64, input dim-100) 
model.add (Activation ("relu")) 
model.add(Dense(output dim-10)) 

model.add (Activation ("softmax")) 





© 本 节 的 示例 参考 Keras 的 官方 文档 : https://keras.io/。 
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然后 ， 编 译 模型 ， 同 时 指明 损失 函数 和 优化 器 : 
model.compile(loss-'categorical crossentropy', optimizer-'sgd', metrics-['accuracy'] 
最 后 ， 训 练 模型 和 评估 模型 : 


model.fit(X train, Y train, nb epoch-5, batch size-32) 

loss and metrics - model.evaluate(X test, Y test, batch size-32) 

这 就 是 一 个 最 简单 的 模型 的 使 用 。 如 果 要 搭建 复杂 的 网 络 , 可 以 使 用 Keras 的 Model 模型 ， 
它 能 定义 多 输出 模型 、 含 有 共享 层 的 模型 、 共 享 视觉 模型 、 图 片 问答 模型 、 视 觉 问答 模型 等 。 
在 Keras 的 源 代码 的 examples 文件 夹 里 还 有 更 多 的 例子 ， 有 兴趣 的 读者 可 以 参考 。 









































7.2.3 Keras 的 使 用 


我 们 下 载 Keras 代码 到 本 地 目录 , 将 下 载 后 
示例 ， 例 如 : 

e CIFAR10 一 一 图 片 分 类 使 用 CNN 和 实时 数据 ); 

e IMDB 一 一 电影 评论 观点 分 类 (使 用 LSTM); 

e Reuters 新 闻 主 题 分 类 (使 用 多 层 感知 器 ); 

e MNIST 一 一 手写 数字 识别 (使 用 多 层 感知 器 和 CNN); 

e OCR 一 一 识别 字符 级 文本 生成 (使 用 LSTM)。 

这 里 我 们 主要 用 MNIST 示例 进行 讲解 。 后 续 在 第 13 章 中 ， 我 们 仍 会 以 Keras 框架 来 讲解 





目录 命名 为 keras。Keras 源 代码 中 包含 很 多 
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原 理 及 代码 实现 o 
1. $E 





Keras 的 安装 非常 简单 ， 不 依赖 操作 系统 ， 建 议 大 家 直接 通过 pip 命令 安装 : 








pip install keras 


安装 完成 后 ， 需 要 选择 依赖 的 后 端 ， 在 ~/.keras/keras.json 下 修改 最 后 一 行 backend 对 应 的 
值 即 可 。 修 改 后 的 文件 如 下 : 








{ 


"image dim ordering": "tf", 
"epsilon": 1e-07, 

"flLloatx"; "float32", 
"backend": "tensorflow" 





(D https://github.com/fchollet/keras 
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2. 实现 卷 积 神经 网 络 ” 


将 


























- 




















评估 或 者 模型 预测 几 步 。 下 面 我 们 就 用 最 简单 的 MNIST 示例 来 看 如 何 用 Keras ScBEL— ERA 
经 网 络 (CNN)。 














首先 ， 定 义 好 超 参数 以 及 加 载 数据 ， 如 下 : 





batch size = 128 
nb classes = 10 4 分 类 数 
nb epoch = 12 # 训练 轮 数 


输入 图 片 的 维度 

img rows, img cols = 28, 28 
卷 积 滤 镜 的 个 数 

nb filters - 32 

最 大 池 化 ， 池 化 核 大 小 





pool size = (2, 2) 
卷 积 核 大 小 
kernel size = (3, 3) 
(X train, y train), (X test, y test) - mnist.load data() 
if K.image dim ordering() == 'th': 





# 使 用 Theano 的 顺序 : (conv diml, channels, conv dim2, conv dim3) 
X train = X train.reshape(X train.shape[0], 1, img rows, img cols) 
X test = X test.reshape(X test.shape[0], 1, img rows, img cols) 














input shape - (1, img rows, img cols) 

else: 
* 使 用 TensorFlow 的 顺序 : (conv diml, conv dim2, conv dim3, channels) 
X train - X train.reshape(X train.shape[0], img rows, img cols, 1) 
X test = X test.reshape(X test.shape[0], img rows, img cols, 1) 




















input shape - (img rows, img cols, 1) 


X train - X train.astype('float32') 
X test = X test.astype('float32') 

X train /- 255 

X test /= 255 








# 将 类 向 量 转换 为 二 进 制 类 和 矩阵 


Y train = np utils.to categorical(y train, nb classes) 








Y test - np utils.to categorical(y test, nb classes) 


下 






































model = Sequential() 








本 节 代 码 参 考 https://github.com/fchollet/keras/blob/master/examples/mnist cnn.py。 


Keras 实现 一 个 网 络 模型 ， 主 要 分 为 加 载 数 据 、 模 型 构建 、 模 型 编译 、 模 型 训练 、 模 型 








四 来 构 建 模 型 ， 这 里 用 2 个 卷 积 层 、1 个 池 化 层 和 2 个 全 连接 层 来 构建 ， 如 下 : 


ü 
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model.add(Convolution2D(nb filters, kernel size[0], kernel size[1], 
border mode-'valid', 
input shape-input shape)) 
model.add(Activation('relu')) 
model.add(Convolution2D(nb filters, kernel size[0], kernel size[1])) 
model.add(Activation('relu')) 
model.add(MaxPooling2D(pool size-pool size)) 
model.add(Dropout(0.25)) 
model.add(Flatten()) 
model.add (Dense (128) 
model.add (Activation ('relu')) 
model.add (Dropout (0.5)) 
model.add (Dense (nb classes)) 
model.add(Activation('softmax')) 
随后 ， 用 model.compile0 函 数 编译 模型 ， 采 用 多 分 类 的 损失 函数 ， 用 Adadelta 算法 做 优化 














方法 ， 如 下 : 


model.compile(loss-'categorical crossentropy', 
optimizer-'adadelta', 
metrics-['accuracy']) 


然后 ， 开 始 用 modelfit0 函 数 训练 模型 ， 输 入 训练 集 和 测试 数据 ， 以 及 batch size 和 nb epoch 





























参数 ， 如 下 : 


域 ， 


model.fit(X train, Y train, batch size-batch size, nb epoch-nb epoch, 
verbose-1, validation data-(X test, Y test)) 


最 后 ， 用 modeLevaluate PEOR VERUS, dir EAE DR a REMEK, Un 








Score - model.evaluate(X test, Y test, verbose-0) 
print('Test score:', score[0] 
print('Test accuracy:', score[1] 


计算 出 的 损失 值 和 准确 率 如 下 : 




















Test score: 0.0327563833317 
Test accuracy: 0.9893 


这 是 一 个 非常 简单 的 例子 。 尽 管 模型 架构 是 不 变 的 ， 但 是 读者 要 将 其 应 用 到 自己 的 开发 领 
一 般 是 先 读 懂 对 应 的 神经 网 络 论文 ， 然 后 用 这 个 架构 去 搭建 和 训练 模型 。 


F 






























































3. 模型 的 加 载 及 保存 














Keras 的 save model 和 load model 方法 可 以 将 Keras 模型 和 权重 保存 在 一 个 HDF5 文件 中 ， 























面包 括 模型 的 结构 、 权 重 、 训 练 的 配置 《损失 函数 、 优 化 器 ) 等 。 如 果 训练 因为 某 种 原 医 
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keras/tests H 3%! 











saving.py 文件 的 内 容 如 下 : 


from keras.models import save model, 


def test sequential model saving(): 


model = Sequential() 


model.add(Dense(2, 


model.add(RepeatVector (3)) 
model.add(TimeDistributed (Dense(3))) 
model.compile(loss-objectives.MSE, 


input dim-3)) 





止 ， 就 用 这 个 HDF5 文件 从 上 次 训练 的 地 方 重新 开始 训练 。 
的 test model saving.py 文件 中 给 出 了 加 载 和 保存 模型 的 方式 。test model- 











load model 


optimizer-optimizers.RMSprop(1r-0.0001), 
metrics-[metrics.categorical accuracy], 


sample weight mode-'temporal') 


x = np.random.random((1, 3) 


y = np.random.random((1, 3, 
model.train on batch(x, y) 


out - model.predict (x) 


., fname 


tempfile.mkstemp('.h5') 


save model(model, fname) 


new model 


) 


3)) 


load model (fname) 


os.remove(fname) 


out2 - new model.predict (x) 


assert allclose(out, out2, 





* 创建 一 个 HPFS 5 文件 


atol-1e-05) 





# 检测 新 保存 的 模型 和 之 前 定义 的 模型 是 否 一 至 


x = np.random.random((1, 3) 


y = np.random.random((1, 3, 
model.train on batch(x, y) 


new model.train on batch(x, 


out - model.predict (x) 
out2 - new model.predict (x) 


assert allclose(out, out2, 


如 果 只 是 希望 保存 模型 的 结构 ， 而 不 包含 其 权重 及 训练 的 配置 “损失 函数 、 优 化 器 )， 可 








以 使 用 下 面 的 代码 将 模型 序列 化 成 json 或 者 yaml 文件 : 











json string 
json string 


保存 完成 后 ， 还 可 以 手动 编辑 ，3 





from keras.models import model from j 








model.to json() 
model.to yaml() 


) 


3)) 


y) 


atol-1e-05) 








Tr 

















Hr 








使 








如 下 语句 进行 加 载 : 








model = model from json(json string) 


model - model from yaml(yaml string) 





son 
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如 果 仪 需要 保存 模型 的 权重 , 而 不 包含 模型 的 结构 , 可 以 使 用 save_weights 和 load. weights 
语句 来 保存 和 加 载 : 





model.save weights('my model weights.h5') 
model.load weights('my model weights.h5') 


7.3 小 结 

















本 章 主要 介绍 了 TensorFlow 的 高 质量 的 元 框架 Keras 和 TFLearn。 当 读者 熟练 使 用 
TensorFlow 去 构建 神经 网 络 后 ， 会 发 现 TensorFlow 的 确 过 于 灵活 ， 且 代码 十 分 兄长 。 使 用 元 框 
An 


提供 的 高 级 API 能 够 可 以 极 大 地 提高 开发 效率 ， 很 容易 做 一 些 模型 实验 。 在 第 1l 章 和 第 13 
章 中 都 会 用 Keras 和 TFLearn 里 的 高 级 API 来 构建 网 络 。 

















































































































经 过 基础 篇 的 学 习 ， 相 信 读 者 对 TensorFlow 的 基本 概念 已 经 掌握 得 很 好 
了 ， 而 实战 是 一 个 程序 员 的 自我 修养 。 

俄罗斯 著名 的 戏剧 和 表演 理论 家 康 斯 坦 丁 。 斯 坦 尼 斯 拉夫 斯 基 在 他 的 著作 
《演员 的 自我 修养 》 里 主张 体验 ， 让 演员 和 角色 合 二 为 一 ， 这 样 才 能 把 角色 内 心 
生活 的 一 切 不 可 捉摸 的 细微 变化 和 全 部 深度 ， 艺 术 地 表达 出 来 。 只 有 这 样 的 艺术 
才能 完全 抓 住 观 众 的 心 ， 使 观众 再 明和 白手 台 上 所 发 生 的 一 切 ， 丰 富 观众 的 内 心 的 
经 验 ， 在 他 们 心中 留 下 时 间 无 法 磨灭 的 痕迹 。 而 人 的 情感 一 定 是 依照 天 性 自然 发 
生 的 ， 是 不 经 意 间 达 到 的 ， 却 不 是 随时 能 通过 外 在 变化 (deXim. d UAE ) 来 
表达 ， 这 时 就 需要 表演 者 对 戏剧 角色 的 动作 行为 深入 研究 ， 然 后 揣摩 出 内 心 的 情 
感 特征 ， 让 “动作 ”和 “心理 ”相互 影响 ， 激 发 出 天 性 ， 使 动作 的 表现 更 加 真实 。 

学 者 式 的 研究 与 学 习 表 演 有 很 大 相似 之 处 。 学 习 表 演 的 对 象 是 剧本 中 的 人 
物 ， 将 剧本 和 角色 剖析 成 不 同 层 次 的 单元 ; 这 里 研究 的 对 象 是 TensorFlow， 最 
终 希 望 能 够 服务 于 我 们 所 做 的 工作 上 。 那么 ,从 哪些 方面 学 习 才 能 真正 掌握 它 
呢 ? 基础 篇 相当 于 将 TensorFlow 剖析 成 不 同 的 单元 ， 并 讲解 了 “剧本 ”( 卷 积 
神经 网 络 ) 发 展 的 脉络 。 在 本 篇 中 ， 我 们 就 要 通过 “动作 ”( 各 种 例子 ) 去 揣摩 
不 同 单元 是 如 何 构 成 每 一 种 网 络 的 例子 , 并且 细 腻 地 知道 每 个 单元 对 做 不 同 任 
务 的 网 络 的 影响 。 

实践 出 真知 ， 现 在 我 们 这 就 进入 实战 演练 。 


第 8 和 至 


NH: $ oE 


第 一 个 TensorFlow 程序 


























H 








BE TensorFlow 的 运行 方式 对 后 面 儿 章 的 具体 实战 非常 
讲解 TensorFlow 的 运行 方式 。 








Tn 

















要 。 本 章 就 用 一 个 简单 的 例子 来 














8.1 TensorFlow 的 运行 方式 


TensorFlow 的 运行 方式 分 如 下 4 步 : 

(1) 加 载 数据 及 定义 超 参 数 ; 

(2) 构建 网 络 ; 

(3) 训练 模型 ; 

(4) 评估 模型 和 进行 预测 。 

下 面 我 们 以 一 个 神经 网 络 为 例 ， 讲 解 TensorFlow 的 运行 方式 。 在 这 个 例子 中 ,我 们 构造 一 
个 满足 一 元 二 次 函数 y= a+b 的 原始 数据 ， 然 后 构建 一 个 最 简单 的 神经 网 络 ， 仅 包含 一 个 输入 
层 、 一 个 隐藏 层 和 一 个 输出 层 。 通 过 TensorFlow 将 隐藏 层 和 输出 层 的 weights 和 biases 的 值 学 
习 出 来 ， 看 看 随 着 训练 次 数 的 增加 ， 损 失 值 是 不 是 不 断 在 减 小 。 































































































8.1.1 ”生成 及 加 载 数 据 


首先 来 生成 输入 数据 。 我 们 假设 最 后 要 学 习 的 方程 为 y= x 一 0.5， 我 们 来 构造 满足 这 个 方 
程 的 一 堆 x 和 yy， 同时 加 入 一 些 不 满足 方程 的 噪声 点 。 

















import tensorflow as tf 

import numpy as np 

# 构造 满足 一 元 二 次 方程 的 函数 

x data = np.linspace(-1,1,300)[:, np.newaxis] # 为 了 使 点 更 密 一 些 ， 我 们 构建 了 300 个 点 ， 分 
布 在 -1 到 1 区 间 ， 直 接 采 用 np 生成 等 差 数列 的 方法 ， 并 将 结果 为 300 个 点 的 一 维 数组 ， 转 换 为 300X1 的 二 维 数组 

noise = np.random.normal(0, 0.05, x data.shape) 4 加 入 一 些 噪声 点 ， 使 它 与 x_data 的 维度 
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一 致 ， 并 且 拟 合 为 均值 为 0、 方 莽 为 0.05 的 正 态 分 布 


y data = np.square(x data) - 0.5 + noise y = x^2 - 0.5 + 噪声 


BE PREN x IL y 的 占 位 符 来 作为 将 要 输入 神经 网 络 的 变量 : 


























xs = tf.placeholder(tf.float32, [None, 1 
ys = tf.placeholder(tf.float32, [None, 1 





8.1.2 ”构建 网 络 模型 


这 里 我 们 需要 构建 一 个 隐藏 层 和 一 个 输出 层 。 作 为 神经 网 络 中 的 层 ， 输 入 参数 应 该 有 4 个 
变量 : 输入 数据 、 输 入 数据 的 维度 、 输 出 数据 的 维度 和 激活 函数 。 每 一 层 经 过 疝 量 化 (y= 
weightsxx + biases) 的 处 理 ， 并 且 经 过 激活 函数 的 非 线性 化 处 理 后 ， 最 终 得 到 输出 数据 。 


下 面 来 定义 隐藏 层 和 输出 层 ， 示 例 代码 如 下 : 
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ju 
















































































def add layer(inputs, in size, out size, activation function-None): 
构建 权重 ; in sizexout size 大 小 的 矩阵 

weights = tf.Variable(tf.random normal([in size, out size])) 
构建 偏 置 : lxXout size 的 矩阵 

biases = tf.Variable(tf.zeros([1, out size]) + 0.1) 


JEREJ 


Wx plus b = tf.matmul (inputs, weights) + biases 

















if activation function is None: 
outputs = Wx plus b 
else: 
outputs = activation function(Wx plus b) 
return outputs # 得 到 输出 数据 
# 构建 隐藏 层 ， 假 设 隐藏 层 有 10 个 神经 元 
hl = add layer (xs, 1, 20, activation function=tf.nn.relu) 
# 构建 输出 层 ， 假 设 输出 层 和 输入 层 一 样 ， 有 1 个 神经 元 


prediction = add layer (hl, 20, 1, activation function=None) 


接 下 来 需要 构建 损失 函数 : 计算 输出 层 的 预测 值 和 真实 值 间 的 误差 ， 对 二 者 差 的 平方 求 和 
再 取 平均 ， 得 到 损失 函数 。 运 用 梯度 下 降 法 ， 以 0.1 的 效率 最 小 化 损失 : 


















































# 计算 预测 值 和 真实 值 间 的 误差 

loss = tf.reduce mean(tf.reduce sum(tf.square(ys - prediction), 
reduction indices-[1])) 

train step = tf.train.GradientDescentOptimizer(0.1).minimize (loss) 


8.1.3 ”训练 模型 


我 们 让 TensorFlow 训练 1000 次 ， 50 次 输出 训练 的 损失 值 : 


init = tf.global variables initializer() # 初始 化 所 有 变量 
sess = tf.Session() 
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目标 结果 。 按 照 标 ? 
问 传播 后 和 真 值 y=x 


n 


度 越 快 ， 而 学 习 率 设置 得 


L1 
^N 








8.2 


已 是 


sess.run(init) 


for i in range(1000): # 训练 1000 次 


sess.run(train step, 


LE i * 50 


print(sess.run(loss, 


RUF, ZFT ENH 





输出 结 


.62726 
.00609592 
.00468114 
.00430631 
.004184 
.0041371 
.00411622 
.0040998 
.00408824 
.00407396 
.00405857 
.00404454 
.00403032 
.00401612 
.00399823 
.00397677 
.00396069 
.0039459 
.00392994 
.00391947 
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以 上 就 是 最 简单 的 利 



































feed dict-(xs: x data, 
: # 每 50 次 打印 出 一 次 损失 值 
feed dict-(xs: x data, 























超 参 数 的 设 定 


所 谓 超 参数 (hyperparameters)， 就 是 指 机 器 学 习 模型 


需要 手动 设 定 、 不 断 试 错 的 。 





学 习 率 (learning rate). 是 一 个 最 常设 定 的 超 参 数 。 学 习 率 设置 得 越 大 ， 训 练 时 间 越 短 ， 速 
那么 ， 如 何 确 定 一 个 比较 好 的 学 习 率 呢 ? 
吾 尝试 0.001、0.0001， 最 终 























确 
































越 小 ， 训 练 得 
能 通过 实验 的 方法 。 例 如 ， 先 设置 0.01， 观 察 损失 值 的 变化 ， 然 





























个 比较 合适 的 学 习 率 。 














ys: 








ys: 


HE 20 次 结果 中 ， 可 以 看 出 损失 值 是 趋 于 变 小 的 : 


] TensorFlow 的 神经 网 络 训练 一 个 模型 的 过 程 ， 
值 来 使 模型 拟 合 y=x? 一 0.5 的 系数 1 和 -0.5， 通 过 损失 值 越 来 越 小 ， 可 以 看 
全 的 步骤 ， 接 下 来 应 该 评估 模型 ， 就 是 和 
0.5 的 结果 系数 进 
在 第 9 章 将 进行 对 MNIST 数据 集 在 各 利 


y data]) 


y data])) 











的 训练 。 














fü 


E 确 度 越 高 。 









































目标 就 是 要 训练 出 权重 


L| 





Li 


行 比较 , 根据 相近 程度 计算 准确 率 。 这 上 
神经 网 络 


训练 参数 越 来 越 逼近 
巴 学 习 出 来 的 系数 weights. biase 进行 前 























里 的 框架 参数 。 与 权 和 


省 略 了 评估 过 程 





o 


参数 不 同 的 是 ， 
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我 们 也 可 以 设置 可 变 的 学 习 率 。 那 么 ， 怎 样 才 算是 准确 率 不 再 提高 ， 应 该 停 上 训练 了 呢 ? 例如 ， 






































在 训练 过 程 中 记录 最 佳 的 准确 率 ， 在 连续 n 轮 (epoch) 没 


























不 再 提高 ， 就 可 以 停止 训练 ， 称 为 “early stopping", 这 个 策略 叫 作 
如 ， 我 们 设置 连续 10 轮 准 确 率 不 再 变动 ， 就 认为 不 再 提高 )。 此 时 ， 让 学 习 率 减 半 ; 下 一 次 






































满足 时 ， 再 让 学 习 率 减 半 。 这 样 ， 在 逐渐 解决 最 优 解 时 ， 我 们 




















达到 最 佳 的 准确 率 时 ， 便 可 以 认为 准确 率 








» 


*no-improvement-in-n" JJ yu] Cfi] 


x 











的 学 习 率 越 来 越 小 ， 准 确 度 就 








mini-batch 大 小 是 另 一 个 最 常设 定 的 超 参数 。 每 批 大 小 决定 了 权重 的 更 新 规则 。 例 如 ， 大 


小 为 32 时， 就 是 把 32 个 样本 的 梯度 全 部 计算 完 ， 然 后 求 3 
的 速度 越 快 ， 可 以 利用 矩阵 、 线 性 代数 库 来 加 速 ， 但 是 权 习 
度 就 慢 。 那 么 ， 如 何 选择 批 次 大 小 呢 ? qu 

正则 项 系数 (regularization parameter, A) 是 另 一 个 常用 | 
遵循 的 规则 ， 一 般 任 经验。 一 般 来 说 ， 如 果 在 较 复 杂 的 网 络 发 现 出 现 了 明显 的 过 拟 合 《在 训练 
数据 准确 率 很 高 但 测试 数据 准确 率 反 而 下 降 )， 可 以 考虑 增加 此 项 










































































均值 ， 去 更 新 权重 。 批 次 越 大 训练 
更 新 频率 略 低 。 批 次 越 小 训练 的 速 


要 结合 机 器 的 硬件 性 能 以 及 数据 集 的 大 小 来 设 定 。 


























的 超 参 数 。 但 是 ， 设 定 没有 太 多 可 





























。 初 学 者 可 以 一 开始 设置 为 0， 


























然后 确定 好 一 个 比较 好 的 学 习 率 后 ， 再 





8.3 小 结 























给 入 

















个 值 ， 随 后 根据 





储 确 率 再 进行 精细 调整 。 








本 章 主要 介绍 了 如 何 用 TensorFlow 构建 一 个 神经 网 络 。 构 建 神经 网 络 主要 分 为 4 个 步骤 : 
构造 数据 、 构 建 网 络 、 训 练 模型 、 评 佑 及 预测 模型 。 此 外 ， 还 介绍 了 一 些 超 参数 设 定 的 经 验 和 





技巧 。 
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PERETI 


TensorFlow 在 MNIST 中 的 应 用 


MNIST^ (Mixed National Institute of Standards and Technology) 是 一 个 入 门 级 的 计算 机 视觉 
数据 集 ， 数 据 集中 都 是 美国 中 学 生 手 写 的 数字 。 它 的 训练 集 包 含 6 万 张 图 片 ， 测 试 集 包 含 1 
万 张 图 片 ， 并 且 数 字 已 经 进行 过 预 处 理 和 格式 化 ， 做 了 大 小 调整 并 居中 ， 图 片 尺寸 也 固定 为 
28X28。 这 个 数据 集 很 小 ， 但 训练 速度 很 快 ， 而 且 收 敛 效 果 也 很 好 ， 非 常 适 合作 为 实战 的 例子 
去 学 习 。 


接 下 来 我 们 就 以 MNIST 数据 集 为 例 ， 尝 尽 TensorFlow 在 深度 学 习 中 的 各 种 应 用 。 
















































































































































































9.1. MNIST 数据 集 简介 


MNIST 数据 集 是 NIST 数据 集 的 子 集 ， 包 含 以 下 4 个 文件 。 

e train-labels-idxl-ubyte.gz: 训练 集 标记 文件 (28881 字 节 )。 

e train-images-idx3-ubyte.gz: 训练 集 图 片 文 件 (9 912 422 FT). 

e tlOk-labels-idxl-ubyte.gz: 测试 集 标记 文件 (4 542 字 节 )。 

e tlOk-images-idx3-ubyte.gz: 测试 集 图 片 文件 (1648 877 字 节 )。 

MNIST 数据 集 包括 训练 集 的 图 片 和 标记 数据 ， 以 及 测试 集 的 图 片 和 标记 数据 ,在 测试 集 包 
TH 10 000 个 样 例 中 ， 前 5 000 个 样 例 取 自 原始 的 NIST 训练 集 ， 后 5 000 个 取 自 原始 的 NIST 
测试 集 ， 因 此 前 5 000 个 预测 起 来 更 容易 些 。 

下 面具 体 讲解 它们 的 格式 。 


9.1.11 训练 集 的 标记 文件 
训练 集 标记 文件 train-labels-idx1-ubyt 的 格式 如 下 : 






















































































































































































(D http://yann.lecun.com/exdb/mnist/。 
@ 格式 内 容 参考 官方 网 站 http://yann.lecun.com/exdb/mnist/。 





[offset] 
0000 

















AL 




















有 效 位 在 前 。 

















这 里 magic number 是 指 写 入 ELF 格式 (Executable and Linkable Format) 的 ELF 头 文件 中 








[type] 


32 bit integer 


32 bit integer 


unsigned byte 
unsigned byte 


unsigned byte 
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[value] 
0x00000801 (2049) 
60000 

?? 


?? 


?? 


[description] 

magic number (MSB first) 
number of items 

label 
label 


label 















































的 常量 ， 检 查 这 个 数 和 自己 设 定 的 是 否 一 致 能 够 判断 出 文件 是 否 损坏 。 








9.1.2 ”训练 集 的 图 片 文件 


训练 集 的 


[offset] 
0000 
0004 
0008 














[type] 
32 bit 
32 bit 
32 bit 
32 bit 


integer 
integer 
integer 
integer 


unsigned byte 


unsigned byte 


unsigned byte 


pixel (像素 ) 的 取 值 范围 是 0-255，0-255 代表 背景 色 (白色 )，255 代表 前 景 1 
































[value] 
0x00000803 (2051) 
60000 

28 

28 

29 


?? 


?? 


9.1.3. ”测试 集 的 标记 文件 
测试 集 的 标记 文件 t10k-labels-idx1-ubyte 的 格式 如 下 : 


[offset] 
0000 


[type] 
32 bit 
32 bit 


integer 
integer 


unsigned byte 


unsigned byte 


unsigned byte 





© 参见 百度 百科 “MSB”: http;//baikebaidu.com/link?url-r3DrWE4OHhsdq-u0u8D pJ9 24Kmzl5jwrhdBBOC lazd7nxCz 


[value] 
0x00000801 (2049) 
10000 

29 


?? 


?? 


IfM9BkPVbPF os2glaJu0pLctzwG7RpxEKUKK . 





图 片 文 件 train-images-idx3-ubyte 的 格式 如 下 : 


[description] 
magic number 
number of images 
number of rows 
number of columns 
pixel 

pixel 


pixel 























description] 

magic number (MSB first) 
number of items 

label 

label 





label 


zm 
"sl 





H 
A 


中 ，MSB (most significant bit， 最 高 有 效 位 )， 在 二 进 制 数 中 ，MSB 是 最 高 加 权 位 ， 与 
十 进 制 数字 中 最 左边 的 一 位 类 似 ”。 通 常 ，MSB 位 于 二 进 制 数 的 最 左 侧 。MSB first 指 的 


三 


H 


149 


150 
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9.1.4 


测试 集 的 图 片 文件 











集 的 图 片 文件 t10k-labels-idx1-ubyte 的 格式 如 下 : 














测试 

[offset] [typel 

0000 32 bit integer 
0004 32 bit integer 
0008 32 bit integer 
0012 32 bit integer 
0016 unsigned byte 
0017 unsigned byte 
XXXX unsigned byte 
已 经 有 各 种 方法 被 应 月 



































[value] 
0x00000803(2051) magic number 


10 
28 
28 
2e 


T 


23 


000 


[description] 


number of images 
number of rows 
number of columns 
pixel 

pixel 


pixel 





HÆ MNIST 这 个 训练 集 上 ， 接 下 来 我 们 就 一 起 来 探讨 这 些 方法 。 讨 























论 这 些 方法 有 助 于 大 家 了 解 神经 网 络 的 基本 设计 思想 和 TensorFlow 的 工作 流程 。 这 些 方法 的 代 
码 位 于 tensorflow-1.1.0/tensorflow/examples/tutorials/mnist/ F 。 











e mnist softmax.py: MNIST 采用 Softmax 回归 训练 。 

e fully connected feed.py: MNIST 采用 Feed 数据 方式 训练 。 

e mnist with summaries.py: MNIST 使 用 卷 积 神经 网 络 CCNN)， 并 且 训 练 过 程 可 视 化 。 
e mnist softmax xla.py.py: MNIST 使 用 XLA 框架 (参见 第 15 Æ). 


我 们 先 从 一 个 简单 的 Softmax 















































回归 模型 





9.2 MNIST 的 分 类 问题 


Softmax 回归 
对 于 要 识别 0—9 这 10 类 数字 ， 首 

















始 。 








可 以 解决 两 种 以 上 的 分 类 ， 该 模型 是 Logistic 回归 模型 在 分 类 问题 上 的 推广 。 
选 Softmax 回归 。MNIST 的 Softmax 回归 源 代码 位 于 tensorflow- 




















1.1.0/tensorflow/examples/tutorials/mnist/mnist softmax.py。 


9.2.1 ”加 载 数据 


我 们 需要 导入 input_data.py 文件 ， 使 


据 ， 代 码 如 下 : 




















] tensorflow.contrib.learn 中 的 read data sets 来 加 载 数 


from tensorflow.examples.tutorials.mnist import input data 


import tensorflow as tf 




















N 








加 载 数据 


mnist = input data.read data sets(FLAGS.data dir, one hot-True) 








> FLAGS.data dir 是 MNIST 所 在 的 路 径 ， 用 户 可 以 自己 指定 ，one_hot 标记 则 是 指 一 
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个 长 度 为 n 的 数组 ， 只 有 一 个 元 素 是 1.0， 其 他 元 素 是 0.0( 例 如， 在 n 为 4 的 情况 下 ， 标 记 2 
对 应 的 one_hot 标记 就 是 0.0 0.0 1.0 0.05. 



























































使 用 one hot 的 直接 原因 是 ， 我 们 使 用 0 一 9 个 类 别 的 多 分 类 的 输出 层 是 softmax 层 ， 它 的 输 
出 是 一 个 概率 分 布 ， 从 而 要 求 输入 的 标记 也 以 概率 分 布 的 形式 出 现 ， 进 而 可 以 计算 交叉 炳 。 








9.2.2 ”构建 回归 模型 


构建 回归 模型 ， 我 们 需要 输入 原始 真实 值 (group truth)， 计 算 采 用 softmax 函数 拟 合 后 的 
预测 值 ， 并 且 定 义 损 失 函 数 和 优化 器 : 








# 定义 回归 模型 

x = tf.placeholder (tf.float32, [None, 784]) 
W = tf.Variable(tf.zeros([784, 10])) 

b = tf.Variable(tf.zeros([10])) 

y = tf.matmul(x, W) + b # 预测 值 

















在 这 里 ， 












































我 们 要 求 TensorFlow 用 梯度 下 降 算 法 以 0.5 的 学 习 率 最 小 化 交叉 箭 。 在 这 里 也 可 





以 采用 其 他 优化 器 ， 只 需要 调整 tf.train.GradientDescentOptimizer 即 可 。 





# 定义 损失 函数 和 优化 器 


y = 


# 我 们 用 


cross 





tf.placeholder(tf.float32, [None, 10]) # 输入 的 真实 值 的 占 位 符 




















tf.nn.softmax cross entropy with logits 来 计算 预测 值 y 与 真实 值 y 的 差 值 ， 并 取 均 值 
entropy = tf.reduce mean(tf.nn.softmax cross entropy with logits(y, y) 














SGD 作为 优化 器 





# 采 
train 


Step = tf.train.GradientDescentOptimizer(0.5).minimize (cross entropy) 


9.2.3 “训练 模型 
已 经 设置 好 了 模型 ， 在 训练 之 前 ， 需 要 先 初始 化 我 们 创建 的 变量 ， 以 及 在 会 话 中 启动 模型 。 
































# 这 里 使 用 InteractiveSession() 来 创建 交互 式 上 下 文 的 TensorFlow 会 话 
# 与 常规 会 话 不 同 的 是 ， 交 互 式 会 话 会 成 为 默认 会 话 


# 方 法 
sess 
tfzgl 





























(Wü tf.Tensor.evalZfltf.Operation.run) 都 可 以 使 用 该 会 话 来 运行 操作 (OP) 
= tf.InteractiveSession() 
obal variables initializer().run() 





我 们 让 模型 循环 训练 1000 次 ， 在 每 次 循环 中 我 们 都 随机 抓 取 训练 数据 中 100. 个 数据 点 ， 
来 替换 之 前 的 占 位 符 。 


# Tra 
for . 
bat 
ses 











in 

in range(1000): 

ch xs, batch ys = mnist.train.next batch(100) 
s.run(train step, feed dict-(x: batch xs, y : batch ys]) 
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这 种 训练 方式 称 为 随机 训练 〈stochastic training)， 使 用 SGD 方法 进行 梯度 下 降 ， 也 就 是 每 
次 从 训练 数据 集中 随机 抓 取 一 小 部 分 数据 进行 梯度 下 降 训练 。 正 如 我 们 在 4.7.5 节 中 讲 到 的 ， 
与 每 次 对 所 有 训练 数据 进行 计算 的 BGD 相 比 ，SGD 既 能 够 学 习 到 数据 集 的 总 体 特征 ， 又 能 够 
加 速 训练 过 程 。 

模型 训练 好 了 之 后 ， 如 何 来 评估 模型 的 性 能 呢 ? 
























































9.2.4 ”评估 模型 


targmax(y,1) 返 回 的 是 模型 对 任 一 输入 x 预测 到 的 标记 值 ，tf.argmax(y_,1) 代 表 正 确 的 标记 
值 。 我 们 用 t£equal 来 检测 预测 值 和 真实 值 是 否 匹 配 ， 并 且 将 预测 后 得 到 的 布尔 值 转化 成 浮 点 
数 ， 并 取 平 均值 。 代 码 如 下 : 









































# 评估 训练 好 的 模型 
correct prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y , 1)) # 计算 预测 值 和 真实 值 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) # 布尔 型 转化 为 
浮 点 数 ， 并 取 平 均值 ， 得 到 准确 率 
# 计算 模型 在 测试 集 上 的 准确 率 


print(sess.run(accuracy, feed dict-(x: mnist.test.images, 















































y: mnist.test.labels])) 























评估 模型 输出 的 结果 为 ; 
0.9179 


也 就 是 说 ， 最 终 的 准确 率 是 91.7%。 接 下 来 我 们 用 卷 积 神 经 网 络 CCNND 模型 ， 配 合 TensorBoard 
可 视 化 工具 ， 直 观 地 看 看 在 训练 过 程 中 都 发 生 了 什么 ， 以 及 能 不 能 得 到 更 高 的 准确 率 。 








































































































9.3 ”训练 过 程 的 可 视 化 


TensorFlow 为 我 们 提供 了 现成 的 神经 网 络 的 可 视 化 例子 。 下 面 我 们 就 以 MNIST 为 例 ， 看 看 训 
练 过 程 中 究竟 发 生 了 什么 。 源 代码 详 见 tensorflow-1.1.0/tensorflow/examples/tutorials/mnist/mnist_ 
with_summaries.py o 

我 们 知道 ， 采 用 TensorBoard 可 视 化 的 原理 在 于 ， 在 训练 的 过 程 中 ， 记 录 下 结构 化 的 数据 ， 
然后 运行 一 个 本 地 服务 器 ， 监 听 6006 端口 。 当 在 浏览 器 中 请 求 页 面 时 ， 分 析 记 录 的 数据 ， 绘 
制 成 统计 图 表 及 计算 图 展示 出 来 。 

我 们 先 直 接 运 行 脚本 ， 看 会 有 哪些 结果 : 









































































































































python mnist with summaries.py 


得 到 的 命令 行 输 出 如 下 : 








3 


Successfully downl 
Extracting /tmp/tensorfl 
Successfully downl 
Extracting /tmp/tensorfl 
Successfully downl 
Extracting /tmp/tensorfl 
Successfully downl 
Extracting /tmp/tensorfl 


Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 


àt 
at 
at 
at 
at 
at 
at 
at 
at 
at 





oaded 


oaded 


oaded 


oaded 
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train-images-idx3-ubyte.gz 9912422 bytes. 





Adding run metadata for 99 


Accuracy at step 


* 此 处 有 和 省略 


Adding run metadata for 


Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 
Accuracy 


at 
at 
at 
at 
at 
at 
at 
at 
at 
at 





step 0: 0.1168 
step 10: 0.6744 
step 20: 0.803 
Step 30: 0.8496 
step 40: 0.8822 
step 50: 0.8857 
step 60: 0.8897 
Step 70: 0.8883 
step 80: 0.8884 
Step 90: 0.8974 
100: 0.9062 
899 
step 900: 0.9643 
step 910: 0.9665 
step 920: 0.9662 
step 930: 0.9678 
step 940: 0.966 
step 950: 0.9685 
step 960: 0.9687 
step 970: 0.9686 
step 980: 0.9651 
step 990: 0.9665 


Adding run metadata for 999 


这 个 例子 会 把 它 训练 过 程 中 的 数据 存储 在 /tmp/tensorflow/mnist 目录 中 ， 这 个 路 径 可 以 通过 





|— input data # 存放 训练 数据 
| 一 tl0k-images-idqx3-ubyte.gz 
| [— t10k-labels-idxl-ubyte.gz 
| | 一 train-images-idx3-ubyte.gz 
| VEN er dE d 


L—— logs # 训练 结果 
L—— mnist with 


L— test # 测试 集结 果 


L—— train # 训练 集结 果 
L——— events.out.tfevents. 











+ 
P 








summaries 























dr 
m 


ow/mnist/input data/train-images-idx3-ubyte.gz 
train-labels-idxl-ubyte.gz 28881 bytes. 
ow/mnist/input data/train-labels-idxl-ubyte.gz 
tlOk-images-idx3-ubyte.gz 1648877 bytes. 
ow/mnist/input data/tl0k-images-idx3-ubyte.gz 
tlOk-labels-idxl-ubyte.gz 4542 bytes. 
ow/mnist/input data/tl0k-labels-idxl-ubyte.gz 

















令 行 参数 --log dir 指定 。 在 /tmp/tensorflow/mnist 中 运行 tree 命令 ， 结 果 如 下 : 


L——— events.out.tfevents.1484255500.baidudeMacBook-Pro.local 














运行 tensorboard 命令 ， 打 开 浏 览 








十 
m 








484255499.baidudeMacBook-Pro.local 





查看 训练 的 可 视 化 结果 。 此 时 ， 需 要 加 上 参数 logdir， 
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标明 日 志文 件 的 存储 路 径 ， 方 法 如 下 : 





tensorboard --logdir-/tmp/tensorflow/mnist/logs/mnist with summaries 


而 这 个 路 径 是 在 创建 摘要 的 文件 写 入 符 〈FileWriter) 时 指定 的 ， 如 下 : 





# sess.graph 是 图 的 定义 ; 本 句 的 含义 是 使 图 可 视 化 


file writer 


输出 结果 如 下 : 





Starting TensorBoard 39 on port 6006 
(You can navigate to http://192.168.0.10 














在 浏览 器 中 打开 http:/192.168.0.101:6006 就 进入 了 可 视 化 的 操作 界 生 


SCALARS DISTRIBUTIONS 


TensorBoard 


tf.summary.FileWriter('/path/to/logs', sess.graph) 


16006) 














i|， 如 图 9-1 所 示 。 


HISTOGRAMS EMBEDDINGS 





Write a regex to create a tag group accuracy_1 


x 





Split on underscores ross entropy 1 





dropout 











Data download links 





Tooltip sorting method: default layer 


layer? 


Smoothing 


———— 





Horizontal Axis 


STEP RELATIVE WALL 
Runs 
Write a regex to filter runs 
O test 
TOGGLE ALL RUNS 


/Amp/tensorflow/mnist/logs/mnist. with - 
summaries 











图 9-1 
接 下 来 就 可 以 进入 各 个 面板 查看 数据 流 图 和 直方 
TersorBoard 可 视 化 面板 的 介绍 。 


我 们 曾 在 4.4.2 节 讲 解 过 与 可 视 化 实现 相关 的 API 
何 实现 可 视 化 。 









































图 了 ， 这 部 分 内 容 请 参考 3.2 节 中 关于 





,这 里 我 们 就 用 本 节 的 例子 来 



































具体 看 看 如 





从 图 9-1 可 以 看 出 ， 给 一 个 张 量 添加 多 个 摘要 描述 的 函数 为 variable_summaries， 如 下 : 





def variable summaries (var): 


""" 对 一 个 张 量 添加 多 个 摘要 描述 """ 


with tf.name scope('summaries'): 





mean tf.reduce mean(var) 


tf.summary.scalar('mean', mean) # 均值 
with tf.name scope('stddev'): 
stddev 


tf.summary.scalar('stddev', stddev) 


tf.sqrt(tf.reduce mean(tf.square(var - mean))) 


# 标准 差 
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tf.summary.scalar('max', tf.reduce max(var)) f 
tf.summary.scalar('min', tf.reduce min(var)) # 


tf.summary.histogram('histogram', var) 


这 里 绘制 出 的 每 一 层 的 均值 、 标 准 差 、 最 大 值 和 最 小 值 在 SCALARS 面板 中 ， 如 图 9-2 
所 示 。 























y 























Write a regex to create atag group X accuracy_1 
C Split on underscores cross entropy 1 
C Data download links opos 
Tooltip sorting method: default tayeri 
layerl/biases/summaries/max layerl/biases/summaries/mean layerl/biases/summaries/min layerl/biases/summaries/stddev. 1 
Smoothing 


— eo 0.6 


Horizontal Axis 





0.000 300.0 600.0 900.0 0 600.0 900.0 





layerl/weights/summaries/max layer /weights/summaries/mean layerl /weights/summaries/min layerl /weights/summaries/stddev. 1 


0.320 
Runs 

0.280 
-— T 0.240 
E O test 

0.200 


E O train a200 





0.000200.0400.0500.0800.0.000k 0.000 300.0 600.0 900.0 0.000 300.0 600.0 900.0 0.000 300.0 600.0 900.0 











图 9-2 

















在 构建 网 络 模型 的 过 程 中 ， 对 weights 和 biases 均 调用 variable_summaries， 并 对 每 一 层 采 
H tf.summary.histogram 绘制 张 量 经 过 激活 函数 前 后 的 变化 。 





























| 








def nn layer(input tensor, input dim, output dim, layer name, act-tf.nn.relu): 
# 为 确保 计算 图 中 各 个 层 的 分 组 ， 给 每 一 层 添 加 一 个 name scope 
with tf.name scope (layer name): 
with tf.name scope('weights'): 
weights - weight variable([input dim, output dim]) 
variable summaries (weights) 
with tf.name scope('biases'): 
biases - bias variable([output dim]) 
variable summaries (biases) 
with tf.name scope('Wx plus b'): 
preactivate = tf.matmul(input tensor, weights) + biases 
tf.summary.histogram('pre activations', preactivate) 4 激活 前 的 直方 图 
activations = act(preactivate, name-'activation') 
tf.summary.histogram('activations', activations) # 激活 后 的 直方 图 
return activations 



































T 








绘制 出 的 图 形 在 HISTOGRAMS 面板 中 ， 如 图 9-3 所 示 。 
22 WEE GG RAE RIRH 2 DAI s 























tf.summary.scalar('cross entropy', cross entropy) 


tf.summary.scalar('accuracy', accuracy) 











绘制 出 的 图 形 在 SCALARS 面板 中 ， 如 图 9-4 所 示 。 
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ite a regextocresteataggroup X | Iayer1 





C Split on underscores | layer1/Wx_plus_b/pre_activations 
test 


Histogram Mode 
OVERLAY Bocas 


Offset Time Axis 


ES -… 


WALL 


test 
Runs 
Write a regex to filter runs 


S 
图 D train 


le ayerl/biases/summaries/histogram 
Is in 





layeri/Wx. plus. b/pre. activations 
train 


deo k 


Jennie es/summaries/histogram 


A^ 


layerl/activations layerl/activations. 
test i 


| layerl/weights/summaries/histogram 


| layerl/weights/summaries/histogram 


A 








图 9-3 





Write a regexto create atag group x 





[C] Split on underscores 


[C] Data download links 


Tooltip sorting method: default X 
Smoothing 
一 全 0.6 





Horizontal Axis 
EH RELATIVE — WALL 


Runs 
Write a regex to filter runs 


Q test 
Q train 








TOGGLE ALL RUNS 


accuracy 1 


cross entropy 1 


accuracy. 1 


1.00 
0.700 
0.400 


0.100 


100.0 400.0 700.0 


cross entropy 1 


3.00 
2.00 
1.00 
0.00 


100.0 400.0 700.0 





读者 可 以 自行 探索 更 多 的 可 视 化 组 合 方法 ， 充 分 利用 好 TensorBoard 工具 。 


讲解 CNN 在 TensorFlow 上 如 何 构 建 。 


图 9-4 




















我 们 接 下 来 就 





9.4 MNIST 的 卷 积 神经 网 络 ” 





p 








本 节 我 们 将 学 习 用 TensorFlow 搭建 一 个 卷 积 神经 网 络 CCNNO 模型 











， 并 用 它 来 训练 MNIST 





同样 ， 构 建 的 流程 也 是 先 加 载 数 据 ， 再 构建 网 络 模 型 ， 最 后 训练 和 评估 模型 。 





© 本 节 代 码 参 考 https://github.com/nlintz/TensorFlow-Tutorials/blob/master/05_convolutional_net.py。 


9.4.1 ”加 载 数据 








导入 必要 的 库 ， 如 下 : 


import tensorflow as tf 


import numpy as np 
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from tensorflow.examples.tutorials.mnist import input data 


这 一 步 和 上 一 节 MNIST 的 


9.4.2 ”构建 模型 





构建 一 个 CNN 模型 ， 需 要 


(1) 定义 输入 数据 并 预 处 到 
图 片 和 标记 的 入 





























回归 模型 相同 ， 不 再 歼 述 。 


以 下 几 步 。 





import tensorflow as tf 


import numpy as np 


n 








数据 。 这 里 ， 我 们 首先 读 取 数 据 MNIST， 并 分 别 得 到 训练 集 的 
E 阵 ， 以 及 测试 集 的 图 片 和 标记 的 矩阵 。 代 人 码 如 下 : 





from tensorflow.examples.tutorials.mnist import input data 


mnist 


trX, 








teX, teY 
mnist.test.labels 


input data.read data sets ("MNIST data/", one hot-True) 
EX 


- mnist.train.images, mnist.train.labels, mnist.test.images, 














其 中 ，mnist 是 TensorFlow 的 tensorflow.contrib.learn 中 的 Datasets， 其 值 如 下 : 





Datasets(train-«tensorflow.contrib.learn.python.learn.datasets.mnist.DataSet 
object at 0x110987cd0»5, validation-«tensorflow.contrib.learn.python.learn.datasets. 
mnist.DataSet object at 0x110987d10»5, test-«tensorflow.contrib.learn.python.learn. 
datasets.mnist.DataSet object at 0x1109874d450») 





tX, trY,, teX, teY 是 数据 的 入 


[ 0. 


0. 

















接着 ， 需 要 处 理 输入 








ee 

Qs 0 nc xd 

MODE E NEA 

Dheosus Ctr 0S 

O eser MEC MES 

NXCNE TEES 
Fm. d 
图 月 





入 图 片 的 数量 ，28X28 是 





图 片 是 黑白 


trX 





trX.reshape(- 











E 阵 表现 ， 其 值 类 似 于 : 














EEX trX 和 teX 的 形状 变 为 [-1,28,28,1]，-1 表示 不 考虑 输 











的 长 和 宽 的 像素 数 ，1 是 通道 (channel) 数量 ， 因 为 MNIST 的 
的 ， 所 以 通道 是 1， 如 果 是 RGB 彩色 图 人像， 通道 是 3。 


52295328 








; 1) # 28x28x1 input img 
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teX = teX.reshape(-1, 28, 28, 1) 4 28x28x1 input img 


K Xx 
uo di 


tf.placeholder("float", [None, 28, 28, 1] 
tf.placeholder("float", [None, 10] 





























(2) 初始 化 权重 与 定义 网 络 结构 。 这 里 , 我 们 将 要 构建 一 个 拥有 3 个 卷 积 层 和 3 个 池 化 层 ， 


随后 接 

















1 个 全 连接 层 和 1 个 输出 层 的 卷 积 神经 网 络 。 首 先 定 义 初始 化 权重 的 函数 : 














def init weights (shape): 


return tf.Variable (tf.random normal (shape, stddev=0.01) 








初始 化 权重 方法 如 下 ， 我 们 设置 卷 积 核 的 大 小 为 3x3: 


w4 
































w = init weights([3, 3, 1, 32]) # patch 大 小 为 3X3， 输 入 维度 为 1， 输出 维度 为 32 
= init weights([3, 3, 32, 64]) # patch 大 小 为 3X3， 输 入 维度 为 32， 输 出 维度 为 64 
= init weights([3, 3, 64, 128]) # patch 大 小 为 3X3, 输入 维度 为 64, 输出 维度 为 128 
= init weights([128 * 4 * 4, 625]) # 全 连接 层 ， 输 入 维度 为 128 x 4 x 4 是 上 一 层 的 输 


出 数据 又 三 维 的 转变 成 一 维 ， 输出 维度 为 625 














wo=init weights([625，10]) # 输出 层 ， 输 入 维度 为 625， 输 出 维度 为 10， 代 表 10 类 (labels) 


随后 ， 定 义 一 个 模型 函数 ， 代 码 如 下 : 


dox 











申 经 网 络 模型 的 构建 函数 ， 传 入 以 下 参数 
X: 输入 数据 
wi 每 一 层 的 权重 








p keep conv, p keep hidden; dropout 要 保留 的 神经 元 比例 


def model(X, w, w2, w3, w4, w o, p keep conv, p keep hidden): 














第 一 组 卷 积 层 及 池 化 层 ， 最 后 dropout 一 些 神 经 元 





lla = tf.nn.relu(tf.nn.conv2d(X, w, strides-[1, 1, 1, 1], padding-'SAME')) 


lla shape-(?, 28, 28, 32) 


11 = tf.nn.max pool(lla, ksize-[1, 2, 2, 1], strides-[1, 2, 2, 1], padding-'SAME') 


ll shape-(?, 14, 14, 32) 


11 = tf.nn.dropout(ll, p keep conv) 











第 二 组 卷 积 层 及 池 化 层 ， 最 后 dropout 一 些 神 经 元 


di 





12a = tf.nn.relu(tf.nn.conv2d(ll, w2, strides-[1, 1, 1, 1], padding-'SAME')) 


12a shape-(?, 14, 14, 64) 


12 = tf.nn.max pool(12a, ksize-[1, 2, 2, 1], strides-[1, 2, 2, 1], padding-'SAME') 


12 shape-(?, 7, 7, 64) 


12 = tf.nn.dropout(12, p keep conv) 











第 三 组 卷 积 层 及 池 化 层 ， 最 后 dropout 一 些 神经 元 


vi 





13a = tf.nn.relu(tf.nn.conv2d(12, w3, strides-[1, 1, 1, 1], padding-'SAME')) 


13a shape-(?, 7, 7, 128) 


13 = tf.nn.max pool(13a, ksize-[1, 2, 2, 1], strides-[1, 2, 2, 1], padding-'SAME') 


13 shape-(?, 4, 4, 128) 


13 = tf.reshape(13, [-1, w4.get shape().as list()[01]]) # reshape to (?, 2048 





























13 = tf.nn.dropout(13, p keep conv) 
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# 全 连接 层 ， 最 后 dropout 一 些 神经 元 
14 = tf.nn.relu(tf.matmul(13, w4)) 
14 - tf.nn.dropout(14, p keep hidden) 








* 输出 层 
pyx = tf.matmul(14, w o) 
return pyx # 返 回 预 测 值 


我 们 定义 dropout 的 占 位 符 一 一 keep_conv， 它 表示 在 一 层 中 有 和 多少 比例 的 神经 元 被 保留 下 
来 。 生 成 网 络 模型 ， 得 到 预测 值 ， 如 下 : 






































p keep conv = tf.placeholder ("float") 
p_keep hidden = tf.placeholder ("float") 
py x = model(X, w, w2, w3, w4, w o, p keep conv, p keep hidden) # 得 到 预测 值 





























接 下 来 ， 定 义 损失 函数 ， 这 里 我 们 仍然 采用 tf.nn.softmax cross entropy with logits 来 比较 
预测 值 和 真实 值 的 差异 ， 并 做 均值 处 理 ， 定 义 训练 的 操作 (train_op)， 采 用 实现 RMSProp 算法 
的 优化 器 给 train.RMSPropOptimizer， 学 习 率 为 0.001， 衰 减 值 为 0.9， 使 损失 最 小 ， 定义 预测 的 
操作 (predict_op)。 具 体 如 下 : 




































































cost = tf.reduce mean(tf.nn. softmax cross entropy with logits(logits-py x, labels-Y)) 
train op = tf.train.RMSPropOptimizer(0.001, 0.9).minimize (cost) 
predict op - tf.argmax(py x, 1) 


9.4.3 ”训练 模型 和 评估 模型 
先 定义 训练 时 的 批 次 大 小 和 评估 时 的 批 次 大 小 ， 如 下 ; 





batch size = 128 
test size - 256 


在 一 个 会 话 中 启动 图 ， 开 始 训练 和 评估 : 





k 























# Launch the graph in a session 

with tf.Session() as sess: 
# you need to initialize all variables 
tf. global variables initializer().run() 


for i in range(100): 
training batch = zip(range(0, len(trX), batch size), 
range (batch size, len(trX)*1, batch size)) 
for start, end in training batch: 
sess.run(train op, feed dict-(X: trX[start:end], Y: trY[start:end], 
p keep conv: 0.8, p keep hidden: 0.5]) 


test indices = np.arange(len(teX)) 4 Get A Test Batch 
np.random.shuffle(test indices) 
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test indices = test indices[0:test size] 


print(i, np.mean(np.argmax(teY[test indices], axis-1) -- 
sess.run(predict op, feed dict-(X: teX[test indices], 
p keep conv: 1.0, 
p keep hidden: 1.0]))) 











结果 如 下 : 
0 0.96484375 
1 0.984375 
2 0.98828125 
3 0.9921875 
4 0.9921875 
5: S 
6 0.99609375 
7 0.9921875 
8 0.9921875 
9 0.98046875 
0 0.9921875 
1 0.984375 
2 0.984375 
3;4L.0 
4 0.9921875 
5 0.9921875 
6 0.98828125 
7 0.9921875 
8 1.0 
9: 业 
20 0.99609375 
此 处 有 省 略 
71 0.98828125 
72 0.99609375 
q 3 pv 
74 0.99609375 
75 1.0 
76 0.9921875 
TT 0.9921875 
78 0.99609375 
79 0.99609375 
80 1.0 
81 0.99609375 
82 0.9921875 
83 0.99609375 
84 0.99609375 
85 0.99609375 
86 0.99609375 
87 0.9765625 
88 0.99609375 
89 0.984375 
90 0.984375 























91 0.98828125 

92 1.0 

93 0.99609375 

94 0.9921875 

96.0 

96 0.99609375 

97 0.99609375 

98 0.9921875 

99 0.9921875 

Ert diy H 
99.2295, 

通过 回归 模型 和 卷 积 神经 网 











循环 神经 网 络 (RNN) 应 
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eh 








8 了 训练 的 次 数 和 准确 度 的 关系 。 可 以 看 出 ， 当 训练 100 轮 后 精确 率 已 经 接近 




















网 络 模型 ， 可 以 看 出 卷 积 神经 网 络 的 效果 真 的 是 非常 好 。 如 果 把 
$ MNIST 上 会 怎么 样 呢 ? 

















9.5 MNIST 的 循环 神经 网 络 








本 节 学 习 
RNN 在 自然 语言 处 型 














] TensorFlow 搭建 一 个 循环 神经 网 络 (RNN) 模型 ， 并 




















e 机 器 翻译 ; 


e 语音 识别 ; 
e 图 像 描述 生成 〈 把 
说 话 ” 讲 解 ); 





e 语言 


























E RNN 和 CNN 结合 ， 根 据 图 像 的 特征 生成 描述 ， 在 第 12 章 用 “看 图 





模型 与 文本 生成 ， 即 利用 生成 的 模型 





更 多 的 资料 i 





Neural Networks) ^. 


9.5.1 加载 数据 


这 一 步 和 9.2.1 节 MNIST 的 回归 模型 相同 ， 


9.5.2 ”构建 模型 





首先 ， 设 置 训练 的 超 参 数 ， 分 别 设置 学 习 率 、 















































nr 








j 它 来 训练 MNIST 数据 集 。 











领域 的 已 下 几 个 方向 应 用 得 非常 成 功 : 









































4 预测 下 一 个 单词 的 可 能 性 。 


支 者 可 参考 Alex Graves 的 论文 《Supervised Sequence Labelling with Recurrent 


请 读者 参考 ， 不 再 歼 述 。 





训练 次 数 和 每 轮训 练 的 数据 大 小 ; 


© 本 节 代码 参考 https:/github.comy/aymericdamien/TensorFlow-Examples/blob/masterexamples/3 Neural Networks/recurrent | 
network.py， 并 做 了 相应 修改 。 


© http://www.cs.toronto.edu/-graves/preprint.pdf 
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MNIST 图 片 的 大 小 是 28x28 像素 ， 所 以 我 们 把 每 一 个 图 像样 本 看 成 一 行 行 的 序列 。 因 此 ,共有 
Q8 个 元 素 的 序列 ) xX (28 行 )， 然 后 每 一 步 输入 的 序列 长 度 是 28， 输 入 的 步 数 是 28 步 。 下 面 
定义 RNN 的 参数 : 


p> 第 二 篇 ”实战 篇 


# 设置 训练 的 超 参 数 

lr = 0.001 

training iters = 100000 
batch size = 128 




















为 了 使 用 RNN 来 分 类 图 片 ， 我 们 把 每 张 图 片 的 行 看 成 是 一 个 像素 序列 (sequence )。 因 为 




































































# 神经 网 络 的 参数 

n input = 28 # 输入 层 的 n 

n steps = 28 4 28 KE 

n hidden units = 128 # 隐藏 层 的 神经 元 个 数 

n classes = 10 # 输出 的 数量 ， 即 分 类 的 类 别 ，0 一 9 个 数字 ， 共 有 10 个 


定义 输入 数据 及 权重 : 


























ip 


# 输入 数据 占 位 符 
x = tf.placeholder(tf.float32, [None, n steps, n inputs]) 
y = tf.placeholder(tf.float32, [None, n classes]) 


* ENRE 
weights = ( 
# (28, 128) 


jud 





in': tf.Variable(tf.random normal([n inputs, n hidden units])), 
# (128, 10) 
'out': tf.Variable(tf.random normal([n hidden units, n classes])) 
} 
biases = { 
# (128, ) 
'in': tf.Variable(tf.constant(0.1, shape-[n hidden units, ])), 
* (10, ) 
'out': tf.Variable(tf.constant(0.1, shape-[n classes, ])) 
} 


定义 RNN 模型 





def RNN(X, weights, biases): 


# 把 输入 的 X 转换 成 Xx ==> (128 batch * 28 steps, 28 inputs) 
X = tf.reshape(X, [-1, n inputs]) 








il 








进入 隐藏 
X in = (128 batch * 28 steps, 128 hidden) 

i tf.matmul(X, weights['in']) + biases['in'] 

X in ==> (128 batch, 28 steps, 128 hidden) 

in = tf.reshape(X in, [-1, n steps, n hidden units]) 





Ce 
H 
5 
Il 
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# 这 里 采用 基本 的 LSTM 循环 网 络 单元 : basic LSTM Cell 

lstm cell = tf.contrib.rnn.BasicLSTMCell (n hidden units, forget bias-1.0, 
state is tuple-True) 

* 初始 化 为 零 值 ，1stm 单元 由 两 个 部 分 组 成 : (c state, h state) 

init state = lstm cell.zero state(batch size, dtype-tf.float32) 



































# dynamic rnn 接收 张 量 (batch， steps, inputs)szkd (steps, batch, inputs)[EJyX in 
outputs, final state = tf.nn.dynamic rnn(lstm cell, X in, initial state- 
init state, time major-False) 


results = tf.matmul(final state[1], weights['out']) + biases['out'] 


return results 


定义 损失 函数 和 优化 器 ， 优 化 器 采用 AdamOptimizer. 




















pred = RNN(x, weights, biases) 
cost = tf.reduce mean(tf.nn.softmax cross entropy with logits(logits-pred, labels-y)) 


train op = tf.train.AdamOptimizer (lr) .minimize (cost) 


定义 模型 预测 结果 及 准确 率 计 算 方 法 : 























correct pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1) 
accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32)) 


9.5.3 ”训练 数据 及 评估 模型 
在 一 个 会 话 中 启动 图 ， 开 始 训练 ， 每 20 次 输出 1 次 准确 率 的 大 小 : 








with tf.Session() as sess: 
sess.run(tf.global variables initializer() 
step = 0 
while step * batch size < training iters: 
batch xs, batch ys = mnist.train.next batch (batch size) 
batch xs = batch xs.reshape([batch size, n steps, n inputs]) 
sess.run([train op], feed dict-í 
xt batch xs, 
y: batch ys, 
} 
if step % 20 == 0: 
print (sess.run (accuracy, feed dict={ 
x: batch xs, 
y: batch ys, 
)) 
step += 1 


结果 如 下 : 


0.117188 
0.640625 
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.726562 
.695312 
859375 
.773438 
90625 
此 处 有 和 省略 
.960938 
.945312 
.953125 
.976562 
.96875 
«953125 
.96875 
960938 
.96875 
960938 
.976562 
.96875 
.921875 
.96875 
.984375 
.9375 


可 以 看 出 ， 准 确 率 接近 93%， 准 确 率 不 如 CNN 模型。 


DOr a ctr CUu ae G. O CECLIM ox. cro ome c occ.c. uc 





























9.6 MNIST 的 无 监督 学 习 


本 节 将 介绍 基于 无 监督 学 习 的 一 个 简单 应 用 自 编码 器 (autoencoder )， 并 学 习 用 
TensorFlow 搭建 一 个 自 编码 网 络 ， 并 用 它 在 MNIST 数据 集 上 训练 。 




































































9.6.1 HRE 

痢 面 讲 到 的 都 是 有 监督 学 习 ， 它 的 重要 特征 是 数据 都 是 有 标记 的 ， 无 标记 的 数据 应 该 用 什 
么 样 的 网 络 模型 来 学 习 呢 ? 下 面 我 们 就 介绍 一 个 网 络 模型 一 一 自 编码 网 络 。 

匀 编 码 网 络 模型 如 图 9-5 所 示 。 

自 编码 网 络 的 作用 是 将 输入 样本 压缩 到 隐藏 屋 ， 然 后 解压 ， 在 输出 端 重建 样本 。 最 终 输 出 
层 神 经 元 数量 等 于 输入 层 神 经 元 的 数量 。 

这 里 面 主要 有 两 个 过 程 ， 压缩 和 解压 。 压 缩 依靠 的 是 答 入 数据 〈 图 像 、 文 字 、 声 音 ) 本身 
存在 不 同 程度 的 元 余 信 息 ， 自 动 编码 网 络 通过 学 习 去 掉 这 些 宛 余 信 息 ， 把 有 用 的 特征 输入 到 隐 


















































































































































































































































© 本 节 参 考 UFLDL 的 文章 : http;//ufldl.stanford.edu/wiki/index.php/Autoencoders and Sparsity。 
Q 本 网 参考 http://ufldl.stanford.edu/wiki/index.php/Autoencoders and Sparsity. 























学 习 到 
压缩 过 程 一 方 
大 部 分 时 间 


希望 部 分 多 
稀疏 性 限制 。 
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是 被 抑制 的 ， 当 凶 
时 认为 是 被 激活 的 ， 接 近 0 H 











经 元 





像 ， 第 一 








处 于 被 抑制 状态 ， 这 利 








RA Ze cR 


源 数据 的 主要 成 分 。 其 实 ， 如 果 激 活 函 数 不 使 用 
就 是 PCA 模型 。 可 以 想象 ， 如 果 数 据 都 是 完全 随 必 
个 有 效 的 压缩 模型 。 
看 要 限制 隐藏 神经 元 的 数 





i 还 希望 
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经 元 


经 元 的 输出 接近 1 
































BIS o 
规则 称 为 


多 个 隐藏 层 的 主要 作用 是 ， 如 果 输 入 的 数据 是 





层 会 学 习 如 何 识 别 边 ， 第 二 
何 去 组 合 边 ， 从 而 构成 轮廓 、 角 等 ， 











ZA 2) 
高 层 会 学 习 


如 何 去 组 合 更 有 意义 的 特征 。 例 如 ， 如 果 输 入 数据 


是 人 脸 














ul 





H o 


图 像 的 话 ， 更 高 层 会 学 习 如 何 识别 和 组 合 眼 
骨 、 具 子 、 跨 等 人 脸 器 


有 和 主 成 分 分 析 Cprincipal components analysis, PCA^) 有 些 类 似 ， 要 找到 可 以 代 











sigmoid 等 非 线性 函数 ， 而 使 用 线性 函数 ， 


9.6.2 TensorFlow 的 自 编码 网 络 实现 2 





下 











1. 加 载 数据 





导入 必要 的 库 ， 如 下 : 


import tensorflow as tf 





import numpy as np 
from tensorflow.examples.tutorials.mnist import input data 


2. 构建 模型 





ti fi] bL MNIST 数据 集 为 例 ， 讲 解 





儿 、 相 互 独立 、 同 分 布 的 ， 














下 











习 编 码 器 的 运用 。 

















自 编码 网 络 就 很 难 























hu ax) 





首先 ， 设 置 训练 的 超 参 数 ， 包 括 学 习 率 、 训 练 的 轮 Cepoch) 数 〈 全 部 数据 训 完 一 吉成 为 一 
轮 )、 每 次 训练 的 数据 多 少 、 每 隔 多 少 轮 显示 一 次 训练 结果 : 



































降 维 方法 。 (出 


本 节 代码 主要 参 
autoencoder.py。 





























这 是 通过 保留 低 阶 主 成 分 ， 忽 





主 成 分 分 析 Cprincipal components analysis, PCA) 是 一 种 分 析 、 简 化 数据 集 的 技术 。 经 常 
同时 保持 数据 集中 对 方差 贡献 最 大 的 特征 。 





CES 

















用 于 减少 数据 集 的 维 数 ， 
的 线性 











成 分 做 到 的 。 是 最 常 

















自 维基 百科 “ 主 成 分 分 析 ”。 ) 
考 https://github.com/aymericdamien/TensorFlow-Examples/blob/master/exampl 





es/3 NeuralNetworks/ 
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# 设置 训练 超 参数 

learning rate = 0.01 # 学 习 率 

training epochs = 20 # 训练 的 轮 数 

batch size = 256 # 每 次 训练 的 数据 多 少 
display step = 1 f$ 每 隔 多 少 轮 显示 一 次 训练 结果 


还 要 设置 其 他 参数 变量 ， 表 示 从 测试 集中 选择 10 张 图 片 去 验证 自动 编码 器 的 结果 : 
























































examples to show = 10 


然后 定义 输入 数据 ， 这 里 是 无 监督 学 习 ， 所 以 只 需要 输入 图 片 数 据 ， 不 需要 标记 数据 。 




















M 














X = tf.placeholder("float", [None, n input]) 


随后 初始 化 权重 与 定义 网 络 结构 。 我 们 设计 这 个 自动 编码 网 络 含有 两 个 隐藏 层 ， 第 一 个 隐 
藏 层 神 经 元 为 256 个 ， 第 二 个 隐藏 层 神经 元 为 128 个 。 定 义 网 络 参数 如 下 : 
































# 网 络 参数 

n hidden 1 = 256 # 第 一 个 隐藏 层 神经 元 个 数 ， 也 是 特征 值 个 数 
n hidden 2 = 128 # 第 二 个 隐藏 层 神经 元 个 数 ， 也 是 特征 值 个 数 
n input = 784 # 输入 数据 的 特征 值 个 数 : 28x28-784 


初始 化 每 一 层 的 权重 和 偏 置 ， 如 下 : 



















































































weights = { 
'encoder hl': tf.Variable(tf.random normal([n input, n hidden 1])), 
'encoder h2': tf.Variable(tf.random normal([n hidden 1, n hidden 2])), 
'decoder hl': tf.Variable(tf.random normal([n hidden 2, n hidden 1])), 
'decoder h2': tf.Variable(tf.random normal([n hidden 1, n input])), 

} 

biases = ( 
'encoder bl': tf.Variable(tf.random normal([n hidden 1])), 
'encoder b2': tf.Variable(tf.random normal([n hidden 2])), 
'decoder bl': tf.Variable(tf.random normal([n hidden 1])), 
'decoder b2': tf.Variable(tf.random normal([n input])), 

} 

接着 ， 定 义 目 动 编码 模型 的 网 络 结构 ， 包 括 压 红 和 解压 两 个 过 程 : 

















# 定义 压缩 函数 
def encoder (x): 
# Encoder Hidden layer with sigmoid activation #1 
layer 1 = tf.nn.sigmoid(tf.add(tf.matmul(x, weights['encoder h1']), 
biases['encoder b1'])) 





# Decoder Hidden layer with sigmoid activation #2 

layer 2 = tf.nn.sigmoid(tf.add(tf.matmul(layer 1, weights['encoder h2']), 
biases['encoder b2'])) 

return layer 2 


* 定义 解压 函数 
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def decoder(x): 
# Encoder Hidden layer with sigmoid activation #1 
layer 1 = tf.nn.sigmoid(tf.add(tf.matmul(x, weights['decoder h1']), 
biases['decoder b1'])) 
# Decoder Hidden layer with sigmoid activation #2 
layer 2 - tf.nn.sigmoid(tf.add(tf.matmul(layer 1, weights['decoder h2']), 
biases['decoder b2'])) 
return layer 2 
# 构建 模型 


encoder op = encoder (X) 





decoder op = decoder (encoder op 


接着 ， 我 们 构建 损失 函数 和 优化 器 。 这 里 的 损失 函数 用 “最 小 二 乘法 ”对 原始 数据 集 和 输 
出 的 数据 集 进行 平方 差 并 取 均 值 运算 ;优化 器 采用 RMSPropOptimizer。 



































# 得 出 预测 值 
y pred = decoder op 
# 得 出 真实 值 ， 即 输入 值 
y true = X 








# 定义 损失 函数 和 优化 器 
cost = tf.reduce mean(tf.pow(y true - y pred, 2)) 
optimizer = tf.train.RMSPropOptimizer(learning rate).minimize (cost) 


3. 训练 数据 及 评估 模型 














NE 
i 
上 


在 一 个 会 话 中 启动 图 ， 开 始 训练 和 训 

















with tf.Session() as sess: 
sess.run (init) 
total batch = int (mnist.train.num examples/batch size) 


# 开始 训练 
for epoch in range (training epochs): 














for i in range (total batch): 
batch xs, batch ys = mnist.train.next _ batch (batch size) 
# Run optimization op (backprop) and cost op (to get loss value) 
_; C = sess.run([optimizer, cost], feed dict-(X: batch xs]) 

* 每 一 轮 ， 打 印 出 一 次 损失 值 


if epoch $ display step -- O0: 
print("Epoch:", '$04d' $ (epoch+1), "cost-", "[:.9fj)".format(c)) 


print("Optimization Finished!") 























# 对 测试 集 应 用 训练 好 的 自动 编码 网 络 
encode decode = sess.run(y pred, feed dict-(X: mnist.test.images[:examples _ 
to show] } ) 
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# 比较 测试 集 原 始 图 片 和 自动 编码 网 络 的 重建 结果 
f, a = plt.subplots(2, 10, figsize-(10, 2)) 
for i in range(examples to show): 











a[0] [i].imshow(np.reshape (mnist.test.images[i], (28, 28))) # 测 i 
a[1][il.imshow(np.reshape (encode decode[i], (28, 28))) 94 重建 结 
f.show() 
plt.draw() 


plt.waitforbuttonpress!() 


终端 输出 了 每 一 轮 的 损失 值 ， 结 果 如 下 : 





:210102022 
75847366 
61052987 
49544969 
42014906 
35422051 


Epoch: 0001 cost- 
Epoch: 0002 cost- 
Epoch: 0003 cost- 
Epoch: 0004 cost- 
Epoch: 0005 cost- 
Epoch: 0006 cost- 





0 

0 

0 

0 

0 

0 
Epoch: 0007 cost- 0.131084189 
Epoch: 0008 cost= 0.127759427 
Epoch: 0009 cost- 0.124004595 
Epoch: 0010 cost- 0.123085082 
Epoch: 0011 cost- 0.117432065 
Epoch: 0012 cost= 0.119511291 
Epoch: 0013 cost- 0.115581676 
Epoch: 0014 cost- 0.113403663 
Epoch: 0015 cost- 0.110742018 
Epoch: 0016 cost= 0.111147717 
Epoch: 0017 cost- 0.105923556 
Epoch: 0018 cost- 0.105761752 

0 





Epoch: 00 cost- 0.103263445 
Epoch: 0020 cost- 0.101153791 
Optimization Finished! 


可 以 看 出 随 着 训练 次 数 的 增多 ， 损 失 值 趋 于 减少 。 


‘Oo 




















测试 集 的 图 片 和 经 过 自动 编码 器 重建 特征 后 的 图 片 对 比如 图 9-6 所 示 。 


























的 图 片 ， 下 面 一 行 对 应 的 是 经 过 自动 编码 器 重建 后 的 结果 。 


Ium 





eo Figure 1 
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图 9-6 
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9.7 小 结 


本 章 主要 介绍 了 TensorFlow 在 手写 数字 数据 集 MNIST 的 图 像 识别 中 的 应 用 。 以 MNIST 
数据 集 为 例 ， 讲 解 了 最 简单 的 Softmax 回归 、 卷 积 神经 网 络 (CNN)、 循 环 神经 网 络 RNN), 
9 动 编码 器 模型 的 构建 和 训练 方式 。 同 时 应 用 从 summary.FileWriter() 可 视 化 的 API 来 配合 
TensorBoard 的 可 视 化 展现 。 
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人 脸 识 别 是 基于 人 的 脸 部 特征 信息 进行 身份 识别 的 一 种 生物 识别 技术 。 用 摄像 机 或 
像 或 视频 流 ， 并 自动 在 图 像 中 检测 和 跟踪 人 脸 ， 进 而 对 检测 








证 等 。 



























































摄像 头 采 集 含 有 人 脸 的 图 
到 的 人 脸 进行 一 系列 与 脸 部 相关 的 技术 处 理 ， 包 括 人 脸 检 测 、 人 脸 关键 点 检测 、 人 脸 验 





单 中 ， 支 付 宝 的 “ 刷 脸 支付 ”(Paying with Your Face) 成 功 入 围 ， 并 且 其 评论 称 ， 该 技术 提 伯 



























































在 《 麻 省 理工 科技 评论 》(CMIT Technology Review) 发 布 的 2017 年 全 球 十 大 突破 性 技术 榜 
























































了 一 种 安全 并 且 十 分 方便 的 支付 方式 ， 并 且 已 经 处 于 成 熟 期 。 
































10.1 人 脸 识别 简介 

















现在 很 多 App 都 应 用 
别 具 有 很 多 天 然 的 优势 。 


























了 人 脸 识别 技术 ， 让 用 户 体验 “ 























e 非 强制 性 : 采集 方式 不 容易 被 察觉 ， 被 识别 的 人 脸 图 像 可 以 主动 获取 。 














e 非 接 触 性 ， 用 户 不 需要 与 设备 接触 。 

















e 并 发 性 : 能 够 同时 进行 多 个 人 脸 的 检测 、 跟 踪 和 识别 。 














在 姿势 、 光 照 等 发 生变 化 





采用 神经 网 络 的 人 脸 


选取 特征 ， 而 是 在 样本 的 i 

















时 


口 
N 

















下 面 我 们 就 介绍 基于 

































































N 


BIKE" "RENE A6. Ade 


在 深度 学 习 出 现 以 前 ， 人 脸 识别 方法 一 般 分 为 两 个 步骤 高 维 人 工 特征 提取 和 降 维 。 传 统 
的 人 脸 识 别 技术 主要 是 基于 可 见 光 图 像 的 人 脸 识别 。 但 这 种 方式 有 
， 会 使 识别 率 大 大 降低 。 目 前 ， 深 度 学 习 + 大 数据 (海量 的 有 标注 
人 脸 数 据 ) 成 为 人 脸 识 别 领域 的 主流 技术 路 线 。 


很 多 缺陷 ， 例 如 ， 同 一 个 人 











别 技术 ， 可 以 通过 大 量 样本 图 像 训 练 来 得 到 识别 模型 ， 不 需要 人 了 
练 过 程 中 自行 学 习 。 它 的 识别 准确 率 极 高 ， 可 以 达到 99%。 
经 网 络 的 人 脸 识 别 技术 的 识别 流程 。 



































10.2 ”人 脸 识别 的 技术 流程 





人 脸 识别 系统 一 般 主要 包括 4 个 组 成 部 分 , 分 别 为 人 脸 图 像 采 集 及 检测 、 人 脸 图 像 预 处 理 、 











人 脸 图 像 特征 提取 以 及 人 脸 图 像 匹 配 与 识别 。 








10.2.1 人 上 脸 图 像 采 集 及 检测 


人 脸 识 别 的 第 一 步 就 是 人 脸 的 图 像 采 集 及 检测 。 人 脸 图 像 采 集 是 指 通过 摄像 镜头 把 人 脸 图 
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像 采 集 下 来 ， 如 静态 图 像 、 动 态 图 像 、 不 同 的 位 置 、 不 同 表情 等 。 
围 内 时 ， 采 集 设备 会 自动 搜索 并 拍摄 。 


























当 用 户 在 采集 设备 的 拍摄 范 














人 脸 检 测 属 于 目标 检测 (object detection) 的 一 部 分 ， 主 要 涉及 以 下 两 个 方面 : 












































(1) 对 要 检测 的 目标 对 象 进行 概率 统计 ， 从 而 得 到 待 检测 对 象 的 一 些 特征 ， 建 立 起 目标 检 


测 模 型 ，; 






































(2) 用 得 到 的 模型 来 匹配 输入 的 图 像 ， 如 果 有 匹配 则 输出 匹配 的 区 域 ， 没 有 就 什么 也 不 做 。 

















人 脸 检 测 是 人 脸 识 别 的 预 处 理 的 一 部 分 ， 即 在 图 像 中 准确 标定 出 人 脸 的 位 置 和 大 小 。 人 
脸 图 像 中 包含 的 模式 特征 十 分 丰富 ， 如 直方 图 特征 、 颜 色 特 征 、 模 板 特 征 、 结 构 特 征 及 哈 尔 
特征 (Haar-like feature) 等 。 人 脸 检 测 就 是 把 这 其 中 有 用 的 信息 挑 出 来 ， 并 利用 这 些 特征 实 






































现 人 脸 检 测 。 









































10.2.2 ”人 脸 图 像 预 处 理 



































在 人 脸 检 测算 法 中 ， 有 模板 匹配 模型 、Adaboost 模型 等 ， 其 中 Adaboost 模型 在 速度 与 精度 
的 综合 性 能 上 表现 最 好 。 该 算法 的 特点 就 是 训练 慢 ， 检 测 快 ， 基 本 1 











上 可 以 达到 视频 流 实时 检测 


























人 脸 图 像 预 处 理 是 基于 人 脸 检 测 的 结果 ， 对 图 像 进行 处 理 ， 为 后 面 的 特征 提取 服务 。 系 统 
获取 的 人 脸 图 像 可 能 受到 各 种 条 件 的 限制 和 随机 干扰 ， 需 要 进行 缩放 、 旋 转 、 拉 伸 、 光 线 补 偿 、 





























灰 度 变换 、 直 方 图 均衡 化 、 规 范 化 、 儿 何 校 正 、 过 滤 以 及 锐 化 等 图 














10.2.3 ”人 上 脸 图 像 特征 提取 





像 预 处 理 。 






































人 脸 图 像 特 征 提取 就 是 将 人 脸 图 像 信息 数字 化 ， 将 一 张 人 脸 图 像 转 变 为 的 一 串 数字 一 般 











称 为 特征 向 量 )。 例 如 ， 对 一 张 脸 ， 找 到 它 的 眼睛 左边 、 嘴 唇 右边 、 

















特征 点 间 的 欧 氏 距离 、 


























可 
z 


率 和 角度 等 提取 出 特征 分 量 ， 最 终 把 相关 的 特征 连接 成 一 个 长 的 特征 





AT. ESME, UH 
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10.2.4 ”人 脸 图 像 匹 配 与 识别 


人 脸 图 像 匹 配 与 识别 就 是 把 提取 的 人 脸 图 像 的 特征 数据 与 数据 库 中 存储 的 人 脸 特征 模板 
进行 搜索 匹配 ， 根 据 相似 程度 对 身份 信息 进行 判断 ， 设 定 一 个 阐 值 ， 当 相似 度 超过 这 一 阔 值 ， 
则 把 匹配 得 到 的 结果 输出 。 这 一 过 程 又 分 为 两 类 : 一 类 是 确认 ,是 一 对 一 (1:1) 进行 图 像 比 较 ， 
换 句 话说 就 是 证 明 “ 你 就 是 你 ”， 一 般 用 在 金融 的 核实 身份 和 信息 安全 领域 ， 男 一 类 是 辨认 ， 
是 一 对 多 (1:N) 进行 图 像 严 配 ， 也 就 是 说 在 N 个 人 中 找到 你 ， 一 般 的 N 可 以 是 一 个 视频 流 ， 
只 要 人 走 进 识别 范围 就 完成 识别 工作 ， 一 般 用 在 安防 领域 。 



















































































10.3 ”人 脸 识别 的 分 类 


在 人 脸 识 别 领 域 ， 主 要 有 以 下 4 个 细 分 方向 。 
e 人 脸 检 测 ; 
e 人 脸 关 键 点 检测 ; 
e 人 脸 验 证 ; 
e 人 脸 属 性 检测 。 








10.3.1 人 脸 检 测 


人 脸 检测 是 指 检 测 并 定位 图 片 中 的 人 脸 ， 返 回 高 精度 的 人 脸 框 坐标 。 人 脸 检测 是 对 人 脸 进 
行 分 析 和 处 理 的 第 一 步 。 早 期 的 检测 过 程 称 为 “滑动 窗口 ?， 也 就 是 选择 图 像 中 的 某 个 矩形 区 
域 作 为 滑动 窗口 ， 在 这 个 窗口 中 提取 一 些 特征 对 这 个 图 像 区 域 进行 描述 ， 最 后 根据 这 些 特征 描 
述 来 判断 这 个 窗口 是 不 是 人 脸 。 人 脸 检 测 的 过 程 就 是 不 断 遍 历 需 要 观察 的 窗口 。 例 如 ， 检 测 结 
果 就 如 图 10-1 所 示 。 














































































































10.3.2 ”人 脸 关 键 点 检测 
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人 脸 关 键 点 检测 是 指定 位 并 返回 人 脸 五 官 与 轮廓 的 关键 点 多 











KE 标 位 置 (如 图 10-2 所 示 )。 














关键 点 包括 人 脸 轮 廊 、 眼 睛 、 眉 毛 、 嘴 唇 以 及 描 子 轮廓 。 现 在 茶 些 人 脸 识 别 公 司 ,， 如 Face++ 
能 提供 高 精度 的 关键 点 ， 最 多 可 达 106 点 。 无 论 是 静态 图 片 还 是 动态 视频 流 ， 均 能 完美 巾 











合 人 脸 。 











图 10-2 


人 脸 关 键 点 定位 技术 主要 有 级 联 形 回归 Ccascaded shape regression，CSR)， 目 前 人 脸 识 别 一 般 
是 基于 DeepID 网 络 结构 。DeepID 网 络 结构 和 卷 积 神经 网 络 结构 类 似 ， 主 要 区 别 在 倒数 第 二 层 ， 


























DeepID 网 络 结构 有 一 个 DeepID 层 , 它 与 卷 积 层 4 和 最 大 池 化 层 3 相连 ， 


高 视野 域 越 大 ， 这 种 连接 方式 可 以 既 考 虑 


20 
最 大 池 化 层 1 





— 


输入 层 

















局 部 的 特征 ， 又 考虑 全 局 的 特 和 





由 于 卷 积 神经 网 络 层 数 越 
E, Anl 10-3 所 示 。 








图 10-3" 








Soft-max 











© 本 图 出 自 《Deep Learning Face Representation from Predicting 10,000 Classes) : http://mmlab.ie.cuhk. edu.hk/pdf/ 














YiSun CVPRIA.pdf. 
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10.3.8 ”人 上 脸 验 证 





人 脸 验证 是 指 分 析 两 张 人 脸 属于 同一 个 人 的 可 能 性 大 小 。 输 入 两 张 人 脸 ， 得 到 一 个 置信 和 度 
分 数 和 相应 的 阔 值 ， 以 便 评估 相似 度 。 图 10-4 是 我 调用 Facet+ 的 人 脸 验 证 在 线 接口 得 到 的 结 
果 。 对 比 结果 为 : 是 同一 个 人 的 可 能 性 很 高 。 












































10.3.4 ”人 上 脸 属性 检测 


人 脸 属 性 检测 包括 人 脸 属 性 辨识 和 人 脸 情 绪 分 析 。 例 如 ， 在 https://www.betaface.com/wpa/ 
可 以 进行 人 脸 识 别 在 线 测试 ， 可 以 给 出 人 的 年 龄 、 是 否 有 胡子 、 情 绪 〈( 高 兴 、 正 常 、 生 气 、 贷 
翁 )、 性 别 、 是 否 带 眼镜 、 肤 色 等 。 图 10-5 中 给 出 的 是 我 的 一 张 照 片 的 测试 结果 ， 因 为 化 妆 和 
灯光 的 原因 ， 绪 果 并 不 是 很 准确 。 









































Face Position Classifiers and measurements 
427.8, 511.6 age : 15 (60%), beard : no, expression : neutral (75%), gender : female, glasses 
-9.00 deg : yes, mustache : no, race : white 
N 345 x 345 


score: 1 





图 10-5 











人 脸 识 别 可 以 应 用 在 很 多 方面 。 例 如 ， 美 图 秀 秀之 类 的 美 颜 应 用 ， 世 纪 佳缘 等 相亲 应 用 中 的 
查看 与 潜在 配偶 的 “面相 ”相似 度 ， 以 及 支付 领域 的 “ 刷 脸 支付 ”和 安防 领域 的 “人 脸 鉴 权 ”。 
同时 ， 国 内 的 Facet+ 和 商 汤 科技 等 公司 ， 都 提供 了 人 脸 识别 的 相应 SDK， 供 开发 者 调用 。 


下 面 和 大 家 一 起 做 两 个 练习 : 一 个 是 关于 人 上 脸 检测 的 ， 男 一 个 是 人 上 脸 的 性 别 和 年 龄 识别 。 
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10.4 ”人 脸 检 测 ” 


本 节 示 例 是 TensorFlow 的 人 脸 识 别 实现 ， 参 考 了 Florian Schroff, Dmitry Kalenichenko 和 
James Philbin 的 论文 《FaceNet: A Unified Embedding for Face Recognition and Clustering) ^. 24 
的 人 脸 检测 的 过 程 参 考 了 https://github.com/davidsandberg/facenet/wiki/Validate-on-Ifw . 


我 们 先 把 代码 下 载 下 来 : 


git clone - 





-recursive https://github.com/davidsandberg/facenet.git 


10.4.1 LFW 数据 集 














这 里 采用 的 数据 集 是 LFW (Labeled Faces in the Wild Home) 数据 集 ”。 这 个 数据 集 是 由 美 



































国 马 萨 诸 塞 大 学 

















其 中 4 096 人 只 有 一 张 图 片 ，1 680 人 的 图 片 多 于 一 张 

















可 姆 斯 特 分 校 计算 机 视觉 实验 室 整 理 的 。 它 包含 13 233 张 图 片 ， 共 5749 A, 
每 张 图 片 尺寸 是 250 X250。 
























































我 们 将 下 载 后 的 数据 集 解 压 放 在 $SYOURHOME/facenet/datasets/lfw/raw， 这 里 的 $YOURHOME 























写成 你 自己 的 目录 。 下 载 后 的 数据 集 如 下 : 














rwxr-xr-x( 
rwxr-xr-x( 
rwxr-xr-x( 


rwxr-xr-x( 


rwxr-xr-x( 
rwxr-xr-x( 


rwxr-xr-x( 





a 
q 
q 
q 
drwxr-xr-x( 
q 
q 
q 
q 


rwxr-xr-x( 




















3 jiaxuan staff 02B 10 7 2007 AJ Cook 

3 jiaxuan staff 02B 10 7 2007 AJ Lamas 

3 jiaxuan staff 02B 10 7 2007 Aaron Eckhart 

3 jiaxuan staff 02B 10 7 2007 Aaron Guiel 

3 jiaxuan staff 02B 10 7 2007 Aaron Patterson 
6 jiaxuan staff 204B 10 7 2007 Aaron Peirsol 

3 jiaxuan staff 02B 10 7 2007 Aaron Pena 

4 jiaxuan staff 36B 10 7 2007 Aaron Sorkin 

3 jiaxuan staff 02B 10 7 2007 Aaron Tippin 


人 脸 图 片 位 于 上 述 每 个 人 物 名 字 的 文件 夹 下 , 命名 方式 为 “名 字 _xxxx.jpg” 例如 , AJ Cook 


文件 夹 中 的 图 片 日 





的 文件 名 为 AJ_Cook 0001.jpg。 


10.4.2 ”数据 预 处 理 











一 < 














在 图 像 识 别 中 ， 数 据 预 处 理 是 很 重要 的 一 步 。 这 里 使 
E. FE ERI I https://github.com/davidsandberg/facenet/blob/master/src/align/align dataset - 
































] facenet 源 代码 下 的 align 模块 去 校 


Np 














(QD 本 节 代码 参考 htt 


ps://github.com/davidsandberg/facenet。 


© https://arxiv.org/abs/1503.03832 

















@ LFW 数据 集 的 下 





载 地 址 为 http://vis-www.cs.umass.edu/lfw/。 
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mtcnn.py。 我 们 需要 将 检测 所 使 用 的 数据 集 校准 为 和 预 训练 模型 所 使 用 的 数据 集 大 小 一 致 。 














为 了 能 正确 








export PYT 


校准 命令 如 


for N in 























运行 校准 程序 ， 需 要 设置 一 下 环境 变量 : 








mi 























HONPATH-$ YOURHOME/ facenet/src 


Fe 


1..4}; do python src/align/align dataset mtcnn.py $YOURHOME/facenet 


/datasets/lfw/raw $YOURHOME/facenet/datasets/lfw/lfw mtcnnpy 160 --image size 160 


--margin 3 























2 --random order --gpu memory fraction 0.25 & done 

















这 里 采用 GitHub 上 提供 的 预 训练 模型 20170216-091149.zip ， 采 用 的 训练 集 是 MS-Celeb-IM 
数据 集 。MS-Celeb-1M 是 微软 的 一 个 非常 大 的 人 脸 识别 数据 库 ， 它 是 从 名 人 榜 上 选择 前 100 








万 的 名 人 ， 然 后 
准确 率 已 经 达到 


























通过 搜索 引擎 采集 每 个 名 人 大 约 100 张 人 脸 图 片 而 形成 的 。 这 个 预 训练 模 
0.993+0.004。 

















我 们 将 下 载 
含 的 文件 如 下 : 





model-2017 
model-2017 
model-2017 





型 

















后 的 模型 解压 到 8$7OUVREOME/facenetmodels/facenet/20170216-091149， 旧 














0216-091149.ckpt-250000.data-00000-of-00001 
0216-091149.ckpt-250000.index 
0216-091149.met 


10.4.8 ”进行 检测 








进入 facenet 目录 ， 用 如 下 命令 运行 脚本 : 


python src 


得 到 的 结果 


























Model dire 
Metagraph 
Checkpoint 














/validate on lfw.py datasets/lfw/lfw mtcnnpy 160 models 
如 下 : 


ctory: /media/data/DeepLearning/models/facenet/20170216-091149/ 
file: model-20170216-091149.meta 
file: model-20170216-091149.ckpt-250000 


Runnning forward pass on LFW images 


Accuracy: 

Validation 
Area Under 
Equal Erro 


为 了 和 基准 





0.993+-0.004 

rate: 0.97533+-0.01352 @ FAR=0.00100 
Curve (AUC): 0.999 

r Rate (EER): 0.008 



































四 包含 匹配 和 不 




















匹配 的 人 名 和 图 片 编号 。 匹 配 的 人 名 和 图 片 编号 示例 如 下 : 











(D https://drive.google.com/file/d/OB5MzpY9kBtDVTGZjc WkzT3pldDA/view 


© https://www.microsoft.com/en-us/research/project/ms-celeb- 1 m-challenge-recognizing-one-million-celebrities-real-world/ 


进行 比较 ， 这 里 采用 facenet/data/pairs.txt 文件 ， 它 是 官方 随机 生成 的 数据 ， 里 


的 


包 

















Abel Pacheco 1 4 





表示 Abel Pacheco 的 第 1 张 和 第 4 张 是 一 个 人 。 











不 匹配 的 人 名 和 图 片 编号 示例 如 下 : 


Abd 





e| 























el Madi Shabneh Dean Barker 1 


表示 Abdel Madi Shabneh 的 第 1 张 和 Dean Barker 的 第 1 张 不 是 一 个 人 。 


Pi 


























j 我 们 看 一 下 validate on 1fw.py 是 如 何 检测 人 脸 的 。 可 以 说 分 为 4 步 ， 具 体 如 下 : 





def main(args): 


with tf.Graph().as default(): 


with tf.Session() as sess: 


# 1. 读 入 之 前 的 pairs .txt 文件 

# 读 入 后 如 [['Abel Pacheco', '1', '4'] 

# ['Akhmed Zakayev', '1', '3'] ['Slobodan Milosevic', '2', 'Sok An', '1']] 
pairs = lfw.read pairs (os.path.expanduser(args.lfw pairs)) 





# 获取 文件 路 径 和 是 否 匹 配 的 关系 对 
paths, actual issame = lfw.get paths (os.path.expanduser (args.1lfw dir), 
pairs, args.lfw file ext) 


# 2. 加 载 模型 

print('Model directory: $s' $ args.model dir) 

meta file, ckpt file = facenet.get model filenames (os.path.expanduser 
(args.model dir)) 

print('Metagraph file: $s' $ meta file) 

print('Checkpoint file: $s' $ ckpt file) 

facenet.load model(args.model dir, meta file, ckpt file) 


# 获取 输入 、 输 出 的 张 量 

images placeholder = tf.get default graph() .get tensor by name ("input:0") 

embeddings = tf.get default graph () .get tensor by name ("embeddings:0") 

phase train placeholder = tf.get default graph() .get tensor by name 
("phase train:0") 


image size = images placeholder.get shape()[1] 
embedding size = embeddings.get shape () [1] 











* 3. 使 用 前 向 传播 来 验证 
print('Runnning forward pass on LFW images') 
batch size - args.lfw batch size 














nrof images - len(paths) 
nrof batches = int(math.ceil(1.0*nrof images / batch size)) 4 总 共 的 批 次 数 
emb array - np.zeros((nrof images, embedding size)) 
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for i in range (nrof batches): 
start index - i*batch size 
end index = min((i-*1)*batch size, nrof images) 
paths batch = paths[start index:end index] 
images - facenet.load data(paths batch, False, False, image size) 
feed dict - ( images placeholder:images, phase train placeholder:False ] 
emb array[start index:end index,:] = sess.run(embeddings, 
feed dict-feed dict) 























# 4. 这 里 计算 准确 率 和 验证 率 ， 使 用 了 十 折 交 叉 验 证 的 方法 


tpr, fpr, accuracy, val, val std, far = Lfw.evaluate(emb array, 


























actual issame, nrof folds-args.lfw nrof folds) 


print('Accuracy: $1.3f4-$1.3f' $ (np.mean (accuracy), np.std(accuracy)) 
print('Validation rate: $2.5f4-$2.5f Q8 FAR-$2.5f' $ (val, val std, far)) 


* 得 到 auc fH 

auc = metrics.auc(fpr, tpr) 

print('Area Under Curve (AUC): $1.3f' $ auc) 

* 得 到 等 错误 率 (eer) 

eer = brentq(lambda x: 1. - x - interpolate.interpld(fpr, tpr) (x), 0., 1. 
print('Equal Error Rate (EER): $1.3f' $ eer) 





























这 里 采用 十 折 交 又 验证”(10-fold cross validation). 的 方法 来 测试 算法 的 准确 性 。 十 折 交 又 
伶 证 是 常用 的 精度 测试 方法 ， 有 具体 策略 是 : 将 数据 集 分 成 10 份 ， 轮 流 将 其 E, 
份 做 测试 集 ，10 次 的 结果 的 均值 作为 对 算法 精度 的 估计 ， 一 般 还 需要 进行 多 次 10 折 交 叉 验 证 















































9 份 做 训练 集 















































求 均值 ， 例 如 ，10 次 10 折 交 叉 验证 ， 再 求 其 均值 ， 作 为 对 算法 准确 性 的 估计 。 














10.5 


示例 
2 284 类 


世界 。 




















性 别 和 年 龄 识别 


中 数据 集 采用 Adience 数据 集 








x 
































^. Adience 数据 集 包 含 26 580 张 图 片 ， 总 共 含有 





涉及 的 年 龄 范围 有 8 个 区 段 (0—2. 4—6., 8—13. 15—20., 25—32., 38—43., 
48 一 53、60 一 )， 并 且 这 个 数据 集 含 有 噪声、 姿势 、 光 照 等 变化 ， 尽 可 能 真实 地 反映 现实 









































下 载 后 的 Adience 数据 集 如 下 : 


AdienceBenchmarkOfUnfilteredFacesForGenderAndAgeClassification 


上 一 
L— 





dure # 经 过 剪裁 和 对 齐 的 数据 
faces # 原始 数据 





(D 参考 百度 百科 “十 折 交 叉 验 证 ”。 
Q 本 节 代 码 参考 https://github.com/dpressel/rude-carnie。 
© http://www.openu.ac.il/home/hassner/Adience/data.html#agegender 
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| 一 一 fold 0 data.txt 
— fold 1 data.txt 
| 一 一 told 2 data.txt 
上 一 fold 3 data.txt 
— fold 4 data.txt 
上 一 一 folq frontal 0 data.txt 
| 六 一 fold frontal 1 data.txt 
上 一 一 folq_ frontal 2 data.txt 
| 一 一 foldq_ frontal 3 data.txt 
L—— fold frontal 4 data.txt 

















fold 0 data.txt 至 fold 4 data.txt 里 面 是 全 部 数据 的 标记 ，fold_frontal 0 data.txt 至 fold frontal | 
4 data.txt 里 面 是 仅 使 用 近似 正面 姿态 的 面部 的 标记 ， 它 们 都 包含 表 10-1 所 示 的 数据 。 其 中 
user id 是 用 户 的 Flickr 帐户 ID; original image 是 图 片 的 文件 名 ; face id 是 一 个 人 的 标识 
符 ， 标 记 为 同一 个 人 ; x y dx, dy 给 出 一 个 围绕 一 个 人 脸 的 边框 。tit_ang 是 切 斜 角度 ， 
fiducial yaw angle 是 基准 偏 移 角度 ，fiducial_score 是 基准 分 数 。 


















































































































































表 10-1 





fiducial |fiducial 


user id | original image |face id age |gender| x y | dx | dy tilt ang 
yaw angle| score 





11344505 | 11763777465 11 


AGNO7 | dOlc34ce ojpg 1322 |(25,32)| m |1102 |296 | 357 357 -15 0 59 


10.5.1 ”数据 预 处 理 
使 用 脚本 “把 数据 处 理 成 TFRecords 的 格式 ， 处 理 后 的 文件 列表 如 下 : 













































































-rw-r--r-- root staff 55M 3 17 03:47 train-00000-0of-00010 
-rw-r--r-- root staff 55M 3 17 03:48 train-00001-0of-00010 
-rw-r--r-- root staff 55M 3 17 03:48 train-00002-0of-00010 
-rw-r--r-- root staff 55M 3 17 03:48 train-00003-of-00010 
-rw-r--r-- root staff 55M 3 17 03:49 train-00004-0of-00010 
-rw-r--r-- root staff 55M 3 17 03:47 train-00005-0of-00010 
-rw-r--r-- root staff 55M 3 17 03:48 train-00006-0of-00010 
-rw-r--r-- root staff 55M 3 17 03:48 train-00007-0of-00010 
—IW-I--I-- root staff 55M 3 17 03:48 train-00008-0of-00010 
-rw-r--r-- root staff 55M 3 17 03:49 train-00009-0of-00010 
-rw-r--r-- root staff 30M 3 17 03:47 validation-00000-0of-00002 
-rw-r--r-- root staff 30M 3 17 03:47 validation-00001-0o£f-00002 





(QD https://www.flickr.com/ 
© https://github.com/dpressel/rude-carnie/blob/master/preproc.py 


180 


> 第 二 篇 “实战 篇 


























下 面 看 一 下 它 是 如 何 处 理 的 。 这 里 借助 了 htps://github.com/GilLevi/AgeGenderDeep Learning/Folds 




















文件 夹 。 在 这 个 文件 夹 中 ， 已 经 对 训练 集 和 测试 集 进行 了 划分 和 标注 ， 以 “性 别 ” 为 例 ， 划 分 
后 的 文件 如 下 : 

















10069023@N00/landmark aligned face.1924.10335948845 0d22490234 o.jpg 0 
114841417@N06/landmark aligned face.489.12077468164 8545fe9215 o.jpg 1 
7464014@N04/landmark aligned face.961.10109081873 8060c8b0a5 o.jpg 1 


也 就 是 以 “空格 ”划分 了 “图 片 名 称 路 径 ” 列 表 和 “人 性别”。 
我 们 借助 这 个 文件 下 提供 的 gender train.xt 和 gender valtxt 中 的 图 片 列表 把 原 有 的 















































Adience 数据 集 处 理 成 TFRecords 文件 ， 其 中 图 片 处 理 为 大 小 为 256X256 的 JPEG 编码 的 RGB 
































TFRecords 文件 ， 并 日 将 TFRecords 文件 分 为 训练 集 和 测试 集 。 














图 像 。 处 理 代 码 参见 https://github.com/dpressel/rude-carnie/blob/master/preproc.py . 























下 面 就 来 介绍 一 下 关键 代码 。 首 先 为 每 一 个 样 例 建立 一 个 proto: 


def convert to example (filename, image buffer, label, height, width): 
为 每 一 个 样 例 建立 一 个 proto 
参数 如 下 : 
filename: 文件 名 (如 上 面 所 述 的 文件 名 称 路径 列 表 )》 
image buffer: string, JPEG 编码 的 RGB 图 像 
label: 标记 的 真实 值 
height: 标高 度 256 
width: 目标 宽度 256 


"nm 









































example = tf.train.Example(features-tf.train.Features(feature-[( 
'image/class/label': int64 feature (label), 
'image/filename': bytes feature(os.path.basename(filename)), 
'image/encoded': bytes feature (image buffer), 
'image/height':  int64 feature (height), 
'image/width':  int64 feature (width) 

)) 


return example 








随后 ， 将 给 python io. TFRecordWriter 5j X TFRecords 文件 ， 输 出 文件 为 output files WF: 


writer = tf.python io.TFRecordWriter(output file) 





example - convert to example(filename, image buffer, label, height, width) 
writer.write(example.SerializeToString()) 
writer.close() 


4.10.3 节 曾 详细 讲解 过 如 何 从 文件 中 读 取 数据 ， 并 生成 TFRecords 文件 ， 本 节 是 一 个 实际 


























应 用 。 读 者 可 以 复习 一 下 4.10.3 节 的 内 容 。 














这 样 ， 我 们 就 把 原始 数据 处 理 成 了 大 小 为 256X256 的 JPEG 编码 的 RGB 图 像 ， 生 成 


























In 























10.5.2 ”构建 模型 
这 里 的 年 





Classification Using Convolutional Neural Networks) "4 


https://github.com/dpressel/rude-carnie/blob/master/model.py 





H 




















为 了 方便 





tensorflow.contrib.slim 是 对 常见 网 络 和 一 些 功 能 的 封装 ， 调 用 起 来 很 方便 ， 避 免 了 





代码 ， 让 代码 结构 简洁 。 方 法 如 下 : 
def levi hassner (nlabels, 


0.0005 
weights regularizer 


weight decay 


with tf.variable scope ("LeviHassner" 


with tf.contrib.slim.arg scope( 


[convolution2d, fully connected] 


生成 卷 积 网 络 ， 这 里 直接 使 用 TensorFlow 


, 


龄 和 性 别 的 训练 模型 是 参考 Gil Levi 和 Tal Hassner 的 论文 《Age and Gender 


S 





的 。 年 龄 和 性 别 的 构建 模型 的 代码 在 


o 





也 











EA 


高 级 API—— —tensorflow.contrib.slim , 








的 





























自己 写 大 量 
images, pkeep, is training): 
tf.contrib.layers.12 regularizer(weight decay) 
; "LeviHassner", [images]) as scope: 


weights regularizer-weights regularizer, 


biases initializer-tf.constant initializer(1.), 


weights initializer-tf.random normal initializer(stddev-0.005), 


trainable-True): 
with tf.contrib.slim.arg scope 


[convolution2d], 


( 


weights initializer-tf.random normal initializer(stddev-0.01)): 





conv1 = convolution2d(images, 96, [7,7], [4, 4], padding-'VALID', 
biases initializer-tf.constant initializer(0.), scope-'conv1') 

pooll = max pool2d(convl1, 3, 2, padding-'VALID', scope-'pooll') 

norml = tf.nn.local response normalization(pooll, 5, alpha-0.0001, 
beta-0.75, name-2'norml') 

conv2 = convolution2d(norm1, 256, 5, 5], [1, 1], padding-'SAME', 
Scope-'conv2') 

pool2 = max pool2d(conv2, 3, 2, padding-'VALID', scope-'pool2') 

norm2 = tf.nn.local response normalization(pool2, 5, alpha-0.0001, 
beta-0.75, name-'norm2') 

conv3 = convolution2d(norm2, 384, [3, 3], [1, 1], biases initializer- 
tf.constant initializer(0.), padding-'SAME', scope-'conv3') 

pool3 = max pool2d(conv3, 3, 2, padding-'VALID', scope-'pool3') 

flat = tf.reshape(pool3, [-1, 384*6*6], name-'reshape') 

fulll = fully connected(flat, 512, scope-'fulll') 

dropl = tf.nn.dropout(fulll, pkeep, name-'dropl') 

full2 - fully connected(dropl, 512, scope-'full2') 

drop2 = tf.nn.dropout(full2, pkeep, name-'drop2') 





(D http://citeseerx.ist.psu.edu/viewdoc/download?doi-10.1.1.722.9654&rep-repl &type-pdf 


182 


>> 第 二 篇 “实战 篇 


10.5.3 


with tf.variable scope('output') as scope: 


weights = tf.Variable(tf.random normal([512, nlabels], mean-0.0, stddev- 


0.01), name-'weights') 


biases = tf.Variable(tf.constant(0.0, shape-[nlabels], dtype-tf.float32), 


name-'biases') 


output - tf.add(tf.matmul(drop2, weights), biases, name-scope.name) 
return output 


训练 模型 


定义 好 网 络 模型 后 ， 接 下 来 就 进行 训练 。 训 练 模型 代码 在 https://github.com/dpressel/rude-carnie/ 


blob/master/train.py 中 。 
面 就 以 “性 别 ” 的 训练 为 例 ， 修 改 文 件 中 的 相应 参数 ， 如 train_dir。 训 练 过 程 的 关键 代 


fid | 

















7i 

















def main(argv-None): 
with tf.Graph().as default(): 


model fn = select model(FLAGS.model type) 
# 打开 元 数据 文件 md .json， 这 个 文件 是 在 预 处 理 数据 时 生成 的 。 找 出 nlabels 和 epoch 的 大 小 
input file = os.path.join(FLAGS.train dir, 'md.json') 




















print(input file) 
with open(input file, 'r') as f: 
md = json.load(f) 


images, labels, _ = distorted inputs(FLAGS.train dir, FLAGS.batch size, 
FLAGS.image size, FLAGS.num. 
preprocess threads) 

logits = model fn(md['nlabels'], images, 1-FLAGS.pdrop, True) 

total loss - loss(logits, labels) 


train op = optimizer(FLAGS.optim, FLAGS.eta, total loss) 
saver - tf.train.Saver(tf.global variables()) 


summary op = tf.summary.merge all() 


sess = tf.Session(config-tf.ConfigProto( 
log device placement-FLAGS.log device placement)) 


tf.global variables initializer().run(session-sess) 














# 本 例 可 以 输入 预 训练 模型 Inception V3， 此 处 可 以 用 来 微调 Inception V3 
if FLAGS.pre model: 
inception variables - tf.get collection( 
tf.GraphKeys.VARIABLES, scope-"Inception V3") 
restorer - tf.train.Saver(inception variables) 








restorer.restore (sess, FLAGS.pre model) 


if FLAGS.pre checkpoint path: 


if tf.gfile.Exists(FLAGS.pre checkpoint path) is True: 
print('Trying to restore checkpoint from $s' $ FLAGS.pre checkpoint path) 
restorer - tf.train.Saver() 
tf.train.latest checkpoint(FLAGS.pre checkpoint path) 
print('$s: Pre-trained model restored from $s' $ 
(datetime.now(), FLAGS.pre checkpoint path)) 

















* 将 ckpt 文件 存储 在 run- (pid) 目录 中 











run dir = '$s/run-$d' $ (FLAGS.train dir, os.getpid()) 
checkpoint path = '$s/$s' $ (run dir, FLAGS.checkpoint) 


if tf.gfile.Exists(run dir) is False: 
print('Creating $s' $ run dir) 
tf.gfile.MakeDirs (run dir) 


tf.train.write graph(sess.graph def, run dir, 'model.pb', as text-True) 


tf.train.start queue runners (sess-sess) 


summary writer = tf.summary.FileWriter(run dir, sess.graph) 

Steps per train epoch - int(md['train counts'] / FLAGS.batch size) 

num steps - FLAGS.max steps if FLAGS.epochs « 1 else FLAGS.epochs * 
Steps per train epoch 

print('Requested number of steps [$d]' $ num steps) 


for step in xrange (num steps): 
Start time - time.time() 
., loss value = sess.run([train op, total loss]) 
duration - time.time() - start time 


assert not np.isnan(loss value), 'Model diverged with loss - NaN' 


if step $ 10 -- O0: 
num examples per step - FLAGS.batch size 
examples per sec - num examples per step / duration 
sec per batch - float (duration) 


format str = ('$s: step $d, loss = $.3f ($.1f examples/sec; $.3f ' 
'sec/batch)') 


o 


print(format str $ (datetime.now(), step, loss value, 
examples per sec, sec per batch)) 











# 每 10 步 记录 一 次 摘要 文件 ， 保 存 一 个 检查 点 文件 

if step $ 10 == 0: 
summary str = sess.run(summary op) 
summary writer.add summary(summary str, step) 

if step $ 10 -- 0 or (step + 1) == num steps: 
saver.save(sess, checkpoint path, global step-step) 
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进行 了 100 次 迭代 后 生成 的 检查 点 文件 位 于 run-{pid} (进程 号 ) 的 目录 中 ， 如 下 : 


=> run-28892 $ tree -L 1 


I checkpoint 

F— checkpoint-100.data-00000-of-00001 
F——— checkpoint-100.index 

| checkpoint-100.meta 

F—— checkpoint-60.data-00000-of-0000 
F— checkpoint-60.index 

F— checkpoint-60.meta 
heckpoint-70.data-00000-of£-0000 
heckpoint-70.index 
heckpoint-70.meta 
heckpoint-80.data-00000-of£-0000 
heckpoint-80.index 
heckpoint-80.meta 
heckpoint-90.data-00000-of£-0000 
heckpoint-90.index 








Ur 0b GT 0 COr- 0» YS O 


H checkpoint-90.meta 
| events.out.tfevents.1489700787.baidudeMacBook-Pro.local 
——— — model.pb 








10.5.4 “验证 模型 


接着 我 用 自己 的 一 张 图 片 〈 如 图 10-6 所 示 ) 来 看 看 我 们 训练 的 模型 是 否 准 确 。 源 代码 位 于 
https://github.com/dpressel/rude-carnie/blob/master/guess.py o 


j 














图 10-6 


关键 代码 如 下 : 


def classify(sess, label list, softmax output, coder, images, image file): 





print('Running file $s' $ image file) # 输入 的 图 片 文 件 
image batch - make batch(image file, coder, not FLAGS.single look) 











batch results = sess.run(softmax output, feed dict-[images:image batch.eval()]) 


output = batch results[0] 
batch sz = batch results.shape[0] 
for i in range(1, batch sz): 

output = output + batch results[i] 


output /= batch sz 
best = np.argmax (output) # 最 可 能 的 性 别 分 类 


best choice = (label list[best], output[best]) 
print('Guess @ 1 $s, prob = $.2f' $ best choice) 


nlabels = len(label list) 
return best choice 


结果 非常 好 ， 它 输出 了 性 别 是 “F” 


Guess @ 1 F, prob = 0.59 





微软 也 推出 了 脸 部 图 片 识别 性 别 和 年 龄 的 网 站 〈http:/how-oldnet)， 非 常 好 玩 。 除 了 通过 
图 片 识别 出 年 龄 和 性 别 ， 这 个 网 站 还 可 以 根据 问题 搜索 图 片 ， 结 果 相 当 准 确 。 例 如 ， 我 搜索 了 





“士大夫 ”， 会 得 到 图 10-7 所 示 的 结果 。 


ææ How-Old.net 


How old do I look? 
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1 10.6 小 结 1 





本 章 主要 讲解 了 TensorFlow 在 工业 界 〈 人 脸 识别 方向 ) 的 应 用 。 本 章 首先 介绍 了 人 脸 识别 
的 原理 及 技术 流程 ， 人 脸 识别 的 分 类 ， 接 着 结合 最 常见 的 案例 ， 讲 解 了 用 TensorFlow 实现 人 脸 


检测 和 从 人 脸 识别 性 别 和 年 龄 。 

















本 章 介 绍 了 人 工 智能 在 视觉 领域 的 主要 应 用 ， 人 工 智能 主要 的 关注 点 在 于 能 使 计算 机 模拟 











人 的 感官 ， 正 如 人 的 “ 眼 耳 鼻 口 舌 ”， 人 工 智能 在 自然 语言 处 理 领 域 也 有 很 大 的 突破 。 我 们 在 





下 一 章 会 介绍 。 
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目 然 语言 处 理 

















自然 语言 处 理 是 计算 机 科学 领域 与 人 工 智能 领域 中 的 另 一 个 重要 方向 ， 其 中 很 重要 的 一 
点 就 是 语音 识别 (speech recognition)。 语 首 识 别 要 解决 的 问题 是 让 计算 机 能 够 “ 听 懂 ”人 类 的 
语音 ， 将 语音 中 包含 的 文字 信息 “提取 ”出 来 。 

与 语言 相关 的 技术 可 以 应 用 在 很 多 地 方 。 例 如 ， 日 本 的 富国 生命 保险 公司 花费 170 万 美元 
安装 人 工 智 能 系统 ， 把 客户 的 语言 转换 为 文本 ， 并 分 析 这 些 词 是 正面 的 还 是 负面 的 。 这 些 自动 
化 工作 将 帮助 人 类 更 快 地 处 理 保险 业务 。 除 此 之 外 ， 现 在 的 人 工 智能 公司 也 在 把 智能 客服 作为 
重点 的 研究 方向 。 

与 图 像 识 别 不 同 ， 在 自然 语言 处 理 中 输入 的 往往 是 一 段 语 音 或 者 一 段 文 字 ， 输 入 数据 的 长 
短 是 不 确定 的 ， 并 且 它 与 上 下 文 有 很 密切 的 关系 ， 所 以 常用 的 是 循环 神经 网 络 Crecurrent neural 
network, RNN) 模型 。 







































































































































































11.1 模型 的 选择 


下 面 我 们 就 来 介绍 使 用 不 同 输入 和 不 同 数据 时 ， 分 别 适 用 哪 种 模型 以 及 如 何 应 用 。 
在 图 11-1 中 ， 每 一 个 矩形 是 一 个 向 量 ， 第 头 则 表示 函数 “如 算 阵 相 乘 )。 最 下 面 一 行为 输 
入 向 量 ， 最 上 面 一 行为 输出 向 量 ， 中 间 一 行 是 RNN 的 状态 。 
图 11-1 中 从 左 到 右 分 别 表示 以 下 几 种 情况 。 
(1) 一 对 一 : 没有 使 用 RNN， 如 Vanilla 模型 ， 从 固定 大 小 的 输入 得 到 固定 大 小 输出 (应 
在 图 像 分 类 )。 
(2) 一 对 多 : 以 序列 输出 〔 应 用 在 图 片 描述 ， 输 入 一 张 图 片 输出 一 段 文字 序列 ， 这 种 往往 
需要 CNN 和 RNN 相 结 合 ， 也 就 是 图 像 和 语言 相 结 合 ， 详 见 第 12 半 )。 















































































































































































































































© 广义 的 自然 语言 处 理 包含 语音 处 理 及 文本 处 理 ， 狭 义 的 单 指 理解 和 处 理 文 本 。 本 书 均 指 广义 的 概念 。 














(a) 一 对 一 (b) 一 对 多 (Cc) 多 对 一 
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极 情感 ， 如 淘宝 下 茶 件 商品 的 评论 分 类 )， 如 使 用 LSTM。 
(4D 多 对 多 : 异步 的 序列 输入 和 序列 输出 (应 用 在 机 器 翻译 ， 如 一 个 RNN 读 取 一 条 英 


语句 ， 然 后 将 它 以 法 语 形式 输出 )。 





(5) 多 对 多 : 同步 的 序列 输入 和 序列 输出 (应 用 在 视频 分 类 ， 




















我 们 注意 到 ， 在 上 述 讲解 中 ， 医 














为 中 间 RNN 的 状态 的 部 分 是 固定 的 ， 可 以 多 次 使 用 ， 








"s 
JOL 


(e) 多 对 多 
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(3) 多 对 一 : 以 序列 输入 《应 用 在 情感 分 机 ， 输 入 一 段 文字 ， 然 后 将 它 分 类 成 积极 或 者 消 


对 视频 中 每 一 帧 打 标记 )。 


所 


以 不 需要 对 序列 长 度 进行 预先 特定 约束 。 更 详细 的 讨论 参见 Andrej Karpathy 的 文章 《The 


Unreasonable Effectiveness of Recurrent Neural Networks) g 



































以 及 它们 的 一 些 扩展 应 用 ， 以 及 文本 处 











11.2 ”英文 数字 语音 识别 


本 节 我 们 就 用 语音 识别 的 例子 来 说 明 TensorFlow Æ É 
H TensorFlow 机 器 学 习 库 ， 用 20 fT Python 代码 创建 一 个 超 简单 的 语音 识别 器 。 








um 
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在 这 个 例子 中 ， 我 们 构建 一 个 LSTM 循环 神经 网 络 ， 用 TFLearn 第 三 方 库 来 训练 一 个 








数字 口语 数据 集 。 


我 们 采用 spoken numbers pcm 数据 集 

















自然 语言 处 理 通常 包括 语音 合成 (将 文字 生成 语音 )、 语 音 识 别 、 声 纹 识别 ( 声 纹 鉴 权 )， 


理 ， 如 分 词 、 情 感 分 析 、 文 本 挖掘 等 。 


然 语 言 处 理 上 的 应 用 。 这 里 我 们 将 使 


e 


英文 


， 这 个 数据 集中 包含 许多 人 阅读 的 0 一 9 这 几 个 数字 

















的 英文 的 音频 。 分 为 男声 和 女声 ， 
标识 方法 是 {数字 }_ 人 名 xxx. UP: 











段 音 














(D http://karpathy.github.io/2015/05/21/rnn-effectiveness/ 


频 (wav 文件 ) 中 只 有 


个 数字 对 应 的 英文 的 声 


Q ”本 节 代 码 参考 https://github.com/pannous/tensorflow-speech-recognition/blob/master/speech2text-tflearn.py。 


(S) http://pannous.net/spoken numbers.tar 


Ry 


HH o 
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9 Vicki 400.wav 
9 Victoria 100.wav 








下 面 我 们 就 来 训练 一 个 简单 的 英文 口语 数字 识别 模型 ,在 普通 Mac 上 训练 ,使 其 能 够 在 一 











分 钟 内 达到 98% 的 准确 率 。 





11.2.1 定义 输入 数据 并 预 处 理 数据 



























































首先 ， 需 要 将 语音 处 理 成 能 够 读 取 的 矩阵 形式 。 这 里 面 用 到 了 梅 尔 频率 倒 谱系 数 〈Mel 





T 














frequency cepstral coefficents, MFCC) 特征 向 量 ，MFCC 是 一 种 在 自动 语音 和 说 话 人 识别 
泛 使 用 的 特征 。 














T 





import tflearn 
import speech data 


import tensorflow as tf 


learning rate - 0.0001 
training iters = 300000 # 和 迭代 次 数 
batch size = 64 


width = 20 4 MFCC 特征 
height = 80 # 最 大 发 音 长 度 
classes = 10 # 数字 类 别 








batch = word batch = speech data.mfcc batch generator (batch size) # 生成 每 一 批 MEFCC 语音 
X, Y = next (batch) 

trainX, trainY = X, Y 

testX, testY - X, Y 


对 语言 做 分 帧 、 取 对 数 、 逆 矩阵 等 操作 后 ， 生 成 的 MFCC 就 代表 这 个 语音 的 特征 。 





T 











11.2.2 ”定义 网 络 模型 


读者 会 发 现 ， 用 tflearn 真是 很 简洁 ， 只 用 4 行 代码 就 定义 好 了 一 个 LSTM 模型 ; 








net = tflearn.input data([None, width, height]) 

net = tflearn.lstm(net, 128, dropout-0.8) 

net - tflearn.fully connected(net, classes, activation-'softmax') 

net - tflearn.regression(net, optimizer-'adam', learning rate-learning rate, 
loss-'categorical crossentropy') 


11.2.3 “训练 模型 
接 下 来 训练 模型 ， 并 把 模型 存储 下 来 : 


model = tflearn.DNN (net, tensorboard verbose=0) 
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^ I 


"B x 


while 1: £$training iters 


自然 语言 处 理 << 


model.fit(trainX, trainY, n epoch-10, validation set-(testX, testY), 


show metric-True,batch size-batch size) 
 yzmodel.predict (X) 


model.save("tflearn.lstm.model") 


11.2.4 “预测 模型 


机 器 人 ”。 人 例如， 苹果 的 Siris TAKA 


牙 音箱 Amazon Echo 内 置 的 语音 助手 Alexa, Facebook 推出 的 语音 助手 M 等 。 智 
的 商业 价值 有 两 个 方面 。 


























任意 输入 一 个 语音 文件 ， 进 行 预测 : 








demo file = "5 Vicki 260.wav" 
demo-speech data.load wav file(speech data.path + demo file) 
result-emodel.predict([demo]) 


result-numpy.argmax (result) 


print("predicted digit for $s : result - $d "$(demo file,result)) 





A 
结果 输出 如 下 : 
predicted digit for 5 Vicki 260.wav : result = 5 


结果 很 准确 ， 确 实 这 个 音频 的 数字 就 是 “3 ”。 


























语音 识别 可 以 用 在 智能 输入 法 、 会 议 的 快速 录入 、 语 音 控制 系统 、 智 能 家 
语音 识别 之 外 ， 如 果 对 方 能 给 出 应 答 就 更 好 了 ， 这 就 是 下 面 要 讲 的 “智能 聊天 机 器 人 ”。 



































11.8 ”智能 聊天 机 器 





现在 很 多 公司 都 把 未 来 方向 压 在 了 “自然 语言 的 人 机 交互 ”上 ， 而 这 其 实 
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e 通过 和 用 户 的 “语音 机 器 人 ”的 对 话 ， 将 用 户 引导 到 对 应 的 服务 























Hl o 
































就 
^J Cortana 与 小 冰 、Google Now、 百 度 的 度 秘 、 亚 马 进 的 蓝 


是 “智能 聊天 





能 聊天 机 器 人 


e 作为 今后 智能 硬件 和 智能 家 居 的 嵌入 式 应 用 。 例 如 ， 当 用 户 和 一 个 智能 椅子 进行 对 话 
时 ， 用 户 说 :“ 椅 和子 ， 你 调 高 一 点 ， 把 靠背 放 平 。” 这 个 椅子 的 语音 系统 就 可 能 搭载 了 












































上 述 大 公司 开发 的 智能 聊天 机 器 人 系统 。 
智能 聊天 机 器 人 的 发 展 经 历 了 3 代 不 同 的 技术 。 




















e 第 一 代 是 基于 特征 工程 。 有 大 量 的 逻辑 判断 ， 如 if then; else then. 









































e 
EOM 


答案 。 











e 
yu 








第 二 代 是 基于 检索 库 。 给 定 一 个 问题 或 者 聊天 ， 从 检索 库 中 找到 与 已 有 答案 最 匹配 的 


第 三 代 是 基于 深度 学 习 。 采 用 seq2seq+Attention 模型 ， 经 过 大 量 的 训练 ， 根 据 输入 生 
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成 相应 的 输出 。 
下 面 我 们 就 来 看 看 基于 深度 学 习 的 聊天 机 器 人 的 seq2seq+Attention 模型 




















11.3.1 原理 


seq2seq 模型 是 一 个 翻译 模型 , 主要 是 把 一 个 序列 翻译 成 男 一 个 序列 。 它 的 基本 思想 
个 作为 编码 器 ， 另 一 个 作为 解码 器 ， 组 成 RNN 编码 器 -解码 器 。 


在 文本 处 理 领域 ， 我 们 常用 编码 器 -解码 器 Cencoder-decoder) 框架 ， 


个 RNNLM， 一 











编码 器 



































原理 和 构建 方法 。 











如 图 11-2 所 示 。 
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11-2 








这 是 一 种 适合 处 理 








H 


对 于 一 个 句子 对 <% Y>, 


日 一 个 上 下 文 (context) 生成 一 个 目标 (target) 的 通用 处 型 
输入 给 定 的 句子 X， 通 过 编码 器 -解码 器 框架 来 生成 
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L a 











E 模 型 。 因 此， 
REJ 子 Ys X 



































和 了 可 以 是 不 同 语言 ， 这 就 是 机 器 翻译 ; 和 和 了 可 以 是 对 话 的 问 名 和 
片 和 这 个 图 片 的 对 应 
xj. xo 等 单词 序列 组 成 ， 了 也 
生成 中 间 语 义 编码 C， 然 后 解码 器 对 中 
.… Jil 的 历史 信息 





和 和 了 可 以 是 图 
X n 




















的 yi, Yo, 





用 的 中 间 语 义 编 码 是 相同 





就 明显 不 合 语义 了 。 








述 〈 这 就 是 第 12 章 要 讲 的 看 
































答 句 ， 这 就 是 聊天 机 器 人 ; 
图 说 话 )。 














11、 力 等 单词 序列 组 成 。 编 























这 个 框架 有 


此 ， 在 句子 比较 短 的 时 候 ， 


生成 Yi. 但 是 ， 
的 ， 都 是 C。 医 





























间 语义 编码 C 进行 解码 ， 在 每 个 i 时 刻 
个 缺点 ， 就 是 生成 





码 嚣 对 输入 的 对 进行 编码 ， 


结合 已 经 生成 


， HWA 








的 句子 中 每 一 个 词 采 
还 能 比较 贴切 ,句子 长 时 ， 





在 实际 实现 聊天 系统 的 时 候 , 一 般 编码 器 和 解码 器 都 采用 RNN 模型 以 及 RNN 模型 的 改进 


模型 LSTM。 当 句子 长 度 超过 30 以 后 ,LSTM 模型 的 效果 会 急 
对 长 句子 来 说 能 够 明显 提升 系统 效果 。 


























模型 ， 
Attention 机 制 是 认 知 心 型 
做 这 件 事 而 忽 
机 制 应 
产生 出 更 准确 的 应 答 。 
增加 
现在 的 中 











了 Attention 模型 的 编码 器 -解码 器 框架 如 图 
刁 语义 编码 变 成 了 不 断 变 化 的 C;， 能 够 生产 更 





m PE 









































红学 层面 的 一 个 概念 ， 


























11-3 所 示 。 
EET RT 











它 是 指 当 人 在 做 一 
咯 周围 的 其 他 事 。 例 如 ， 人 在 专注 地 看 这 本 书 ， 会 忽略 旁边 人 说 话 的 


在 聊天 机 器 人 、 机 器 翻译 等 领域 , 就 把 源 句子 中 对 生成 句子 重要 的 关键 词 的 权重 提 


, 一般 此 时 会 引入 Attention 


事情 





| 中 





的 时 候 ， 会 专注 地 
这 种 


件 





= vy 


PH e 
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图 11-3 





11.3.2 ”最 佳 实践 


下 面 就 来 做 一 个 智能 聊天 机 器 人 。” 


这 里 我 们 使 用 康 奈 尔 大 学 的 Corpus 数据 集 ”(Cornell Movie Dialogs Corpus), 里 面 含有 600 
电影 的 对 白 。 对 白 示 例如 下 : 




































































ng 
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| 





L1045 +++$+++ u0 +++$+++ mO +++$+++ BIANCA +++$+++ They do not! 
L1044 +++$+++ u2 +++$+++ mO +++$+++ CAMERON +t++$+++ They do to! 


我 们 首先 关注 如 何 处 理 聊天 数据 ， 一 般 步 又 如 下 。 
(1) 先 把 数据 集 整 理 成 “ 问 ” 和 “ 答 ” 的 文件 ， 生 成 .enc〔〈 问 名 ) 和 .dec CAD 文件 ， 如 下 : 







































































| 六 一 test.dec # 测试 集 答 句 
| 六 一 test.enc # 测试 集 问 句 
L—— train.dec # 训练 集 答 铝 
| 六 一 train.enc # 训练 集 问 铝 








train.enc 问 句 示例 如 下 : 


Gosh, if only we could find Kat a boyfriend... 
C'esc ma tete. This is my head 
How is our little Find the Wench A Date plan progressing? 

















(2) 创建 词汇 表 ， 然后 把 问 句 和 答 句 转换 成 对 应 的 id 形式 。 词 汇 表 的 文件 里 面 有 2 万 个 词 
汇 ， 如 下 : 


ļ— vocab20000.dec # 答 句 的 词汇 表 
































© 本 节 代 码 参 考 https://github.com/suriyadeepan/easy_seq2seq。 需 要 依赖 TensorFlow 0.12.1 环境 ， 请 读者 自行 适 配 。 
© http://www.cs.cornell.edu/-cristian/Cornell Movie-Dialogs Corpus.html 
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L—— vocab20000.enc 4 问 句 的 词汇 表 


词汇 表 的 内 容 如 下 : 








































































































转换 成 的 ids 文件 如 下 : 


| 一 一 test.enc.ids20000 
I—— train.dec.ids20000 
L——— train.enc.ids20000 


问 句 和 答 句 转换 成 的 ids 文件 中 ， 行 是 一 个 问 名 或 答 句 ， 每 一 行 中 的 每 一 
人 句 或 答 句 ! Re T 



































185 4 4 4 146 131 5 1144 39 313 53 102 1176 12042 4 2020 9 2691 9 
792 15 4 

7518 4 

2993 49 88 109 54 13 765 466 2524 4 4 


(3) 采用 编码 器 -解码 器 框架 进行 训练 。 





1. 定义 训练 参数 

















这 里 ， 我 们 将 参数 写 到 一 个 专门 的 文件 seq2seq.ini 中 ， 如 下 : 











[strings] 

# 模式 : train, test, serve 
mode = train 

train enc = data/train.enc 
train dec = data/train.dec 


LrH GO. EOS, UNK, PAD 是 在 seq2seq 模型 中 使 用 的 特殊 标记 ,用 来 填充 标记 对 话 : 
_GO 标记 对 话 开 始 ，_EOS 标记 对 话 结束 ，_UNK 标记 未 出 现在 词汇 表 中 的 字符 ， 
WU PAD 是 用 来 填充 序列 ， 保 证 批 次 中 的 序列 有 相同 的 长 度 。 





HRE 











个 id 代表 问 
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test enc = data/test.enc 

test dec = data/test.enc 

模型 文件 和 词汇 表 的 存储 路 径 
working directory = working dir/ 
ints] 

词汇 表 大 小 

enc vocab size = 20000 

dec vocab size = 20000 

LSTM 层 数 

num layers = 3 

每 层 大 小 ， 可 以 取 值 : 128，256，512，1024 
layer size = 256 

















max train data size = 0 

batch size = 64 

# 每 多 少 次 迭代 存储 一 次 模型 

steps per checkpoint = 300 

[floats] 

learning rate = 0.5 # 学 习 速 率 
learning rate decay factor = 0.99 4 学 习 速率 下 降 系数 
max gradient norm = 5.0 


2. 定义 网 络 模型 











下 面 来 定义 seq2seq 模型 ,该 模型 的 代码 在 seq2seq model.py F, 这 个 代码 基于 TensorFlow 
0.12 版 本 ， 读 者 可 以 重新 安装 试验 。 定 义 一 个 seq2seq+Attention 模型 类 “， 里 面 主要 包含 3 个 
函数 : 

(1) 初始 化 模型 的 函数 C init D; 

(25 训练 模型 的 函数 (step); 

(3) 获取 下 一 批 次 训练 数据 的 函数 〈get_batch )。 

我 们 首先 来 看 如 何 初 始 化 模型 ， 如 下 : 





















































class Seq2SeqModel (object): 


def init (self, source vocab size, target vocab size, buckets, size, 
num layers, max gradient norm, batch size, learning rate, 
learning rate decay factor, use lstm-False, 
num samples-512, forward only-False): 





























""" 构 建 模型 
参数 : 
source vocab size: 问 句 词汇 表 大 小 
target vocab size: 答 句 词汇 表 大 小 
buckets: (I,0)， 其 中 工 指 定 最 大 输入 长 度 ，0 指定 最 大 输出 长 度 








© 参考 论文 《Grammar as a Foreign Language》: http://arxiv.org/abs/1412.7449。 
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size: 每 一 层 的 神经 元 数量 

num layers: 模型 层 数 

max gradient norm: 梯度 将 被 削减 到 最 大 的 规范 

batch size: 批 次 大 小 。 用 于 训练 和 预测 的 批 次 大 小 ， 可 以 不 同 
learning rate: 学 习 速 率 
learning rate decay factor: 调整 学 习 速 率 

use lstm: 使 用 LSTM 单元 来 代替 GRU 单元 

num samples: 使 用 softmox 的 样本 数 

forward only: 是 否 仅 构 建 前 向 传播 


"nnm 

































































self.source vocab size = source vocab size 

self.target vocab size - target vocab size 

self.buckets - buckets 

self.batch size - batch size 

self.learning rate - tf.Variable(float(learning rate), trainable-False) 
self.learning rate decay op - self.learning rate.assign( 
self.learning rate * learning rate decay factor) 

self.global step - tf.Variable(0, trainable-False) 





output projection - None 
softmax loss function - None 
# 如 果 样 本 量 比 词汇 表 的 量 小 ， 那 么 要 用 抽样 的 softmax 


if num samples > 0 and num samples < self.target vocab size: 






































w = tf.get variable("proj w", [size, self.target vocab size]) 
wt = tf.transpose (w) 

b = tf.get variable("proj b", [self.target vocab size]) 
output projection - (w, b) 


def sampled loss(inputs, labels): 
labels = tf.reshape(labels, [-1, 1]) 
return tf.nn.sampled softmax loss(w t, b, inputs, labels, num samples, 
self.target vocab size) 
softmax loss function - sampled loss 


# 构建 RNN 
single cell = tf.nn.rnn cell.GRUCell (size) 
if use lstm: 
single cell - tf.nn.rnn cell.BasicLSTMCell (size) 
cell - single cell 





if num layers > 1: 
cell - tf.nn.rnn cell.MultiRNNCell([single cell] * num layers) 


4$ Attention 模型 
def seq2seq f(encoder inputs, decoder inputs, do decode): 
return tf.nn.seq2seq.embedding attention seq2seq( 
encoder inputs, decoder inputs, cell, 
num encoder symbols-source vocab size, 
num decoder symbols-target vocab size, 
embedding size-size, 
output projection-output projection, 
feed previous-do decode) 
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# 给 模型 填充 数据 

self.encoder inputs = [] 
[] 
self.target weights = [] 


self.decoder inputs 


for i in xrange (buckets[-1][0]): 
self.encoder inputs.append(tf.placeholder(tf.int32, shape-[None], 
name-"encoder(0)]".format(i)) 
for i in xrange(buckets[-1][1] + 1): 
self.decoder inputs.append(tf.placeholder(tf.int32, shape-[None], 
name-"decoder(0)]".format(i)) 
self.target weights.append(tf.placeholder(tf.float32, shape-[None], 


name-"weight(0)".format(i)) 
* targets 的 值 是 解码 器 偏 移 1 位 
targets = [self.decoder inputs[i + 1] 
for i in xrange(len(self.decoder inputs) - 1)] 


# 训练 模型 的 输出 
if forward only: 
self.outputs, self.losses = tf.nn.seq2seq.model with buckets( 
self.encoder inputs, self.decoder inputs, targets, 
self.target weights, buckets, lambda x, y: seq2seq f(x, y, True), 
softmax loss function-softmax loss function) 


if output projection is not None: 
for b in xrange(len(buckets)): 
self.outputs[b] = [ 
tf.matmul(output, output projection[0]) + output projection[1] 
for output in self.outputs[b] 


else: 

self.outputs, self.losses = tf.nn.seq2seq.model with buckets( 
self.encoder inputs, self.decoder inputs, targets, 
self.target weights, buckets, 
lambda x, y: seq2seq f(x, y, False), 
softmax loss function-softmax loss function) 





# 训练 模型 时 ， 更 新 梯度 

params = tf.trainable variables () 

if not forward only: 
self.gradient norms - [] 





self.updates - [] 
opt - tf.train.GradientDescentOptimizer(self.learning rate) 
for b in xrange(len(buckets)): 
gradients - tf.gradients(self.losses[b], params) 
clipped gradients, norm - tf.clip by global norm(gradients, 
max gradient norm) 
self.gradient norms.append (norm) 
self.updates.append(opt.apply gradients( 
zip(clipped gradients, params), global step-self.global step)) 
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self.saver = tf.train.Saver(tf.all variables()) 








接着 ， 定 义 运行 模型 的 每 一 步 : 


def step(self, session, encoder inputs, decoder inputs, target weights, 
bucket id, forward only): 

"" "运行 模型 的 每 一 步 

参数 : 
Session: tensorflow session 
encoder inputs: 问 名 向量 序列 
decoder inputs: 答 句 向 量 序列 
target weights: target weights 
bucket id: 输入 的 bucket id 
forward only: 是 否 只 做 前 向 传播 











"nm 


encoder size, decoder size - self.buckets[bucket id] 


if len(encoder inputs) !- encoder size: 
raise ValueError("Encoder length must be equal to the one in bucket," 
" $d != $d." $ (len(encoder inputs), encoder size)) 
if len(decoder inputs) !- decoder size: 
raise ValueError("Decoder length must be equal to the one in bucket," 
" $d != $d." $ (len(decoder inputs), decoder size)) 
if len(target weights) !- decoder size: 


raise ValueError("Weights length must be equal to the one in bucket," 
" $d !- $d." $ (len(target weights), decoder size)) 


# 输入 填充 


input feed = {} 
for l in xrange (encoder size): 
input feed[self.encoder inputs[1].name] = encoder inputs[l] 
for l in xrange (decoder size): 
input feed[self.decoder inputs[1].name] = decoder inputs[l] 
input feed[self.target weights[1].name] = target weights[l] 


last target - self.decoder inputs[decoder size].name 
input feed[last target] = np.zeros([self.batch size], dtype-np.int32) 





* 输出 填充 与 是 否 有 后 向 传播 有 关 
if not forward only: 
output feed = [self.updates[bucket id], 
self.gradient norms[bucket id], 
self.losses[bucket id]] 
else: 
output feed = [self.losses[bucket id]] 
for l in xrange (decoder size): 
output feed.append(self.outputs[bucket id][l1]) 


outputs = session.run(output feed, 
if not forward only: 


input feed) 


return outputs[1], outputs[2], None 


else: 
return None, 


outputs[0], outputs[1:] 


接 下 来 是 get_batch Kğ, "EE E EIE] 

















def get_batch (self, 
这 个 函数 的 作 
参数 : 


data, bucket id) : 


























是 从 指定 的 桶 中 获取 一 个 批 次 的 随机 数据 ， 在 训练 的 每 步 (step〉 中 使 用 
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# 有 后 向 传播 下 的 输出 PRE WARE, None 





* 仅 有 前 向 传播 下 的 输出 : None， 损 失 值 ，outputs 


是 为 训练 的 每 一 步 (step〉 产生 一 个 批 次 的 数据 。 





























data; 长 度 为 (self .buckets) 的 元 组 ， 其 中 每 个 元 素 都 包含 
bucket id; 整数 ， 从 哪个 bucket 获取 本 批 次 
返回 : 











一 个 包含 三 项 的 元 组 (encoder inputs, decode inputs， 


"nw 


3. 训练 模型 
































于 创建 批 次 的 输入 和 输出 数据 对 的 列表 


target weights) 


修改 seq2seq.ini 文件 中 的 mode 值 ， 当 值 为 “train” 时 ， 可 以 运行 execute.py 进行 训练 。 关 














键 逻辑 代码 如 下 : 


def train(): 











# 准备 数据 和 
print("Preparing data in $s" $ 
enc train, dec train, enc dev, 





gConfig['working directory']) 

dec dev, , _ = data utils.prepare custom data 
(gConfig['working directory'],gConfig['train enc'],gConfig['train dec'], 
gConfig['test enc'],gConfig['test dec'],gConfig['enc vocab size'], 
gconfig['dec vocab size']) 


config = tf.ConfigProto() 
config.gpu options.allocator type = 'BFC' 
with tf.Session(config-config) as sess: 


# 构建 模型 
print("Creating $d layers of $d units." $ 
['layer size'])) 

model = create model (sess, 


(gConfig['num layers'], gConfig 





False) 


# 把 数据 读 入 桶 (pucket ) 中 ， 并 计算 桶 的 大 小 








print ("Reading development and training data (limit: $d)." 
$ gConfig['max train data size']) 
dev set = read data(enc dev, dec dev) 


train set - read data(enc train, dec train, gConfig['max train data size']) 
[len(train set[b]) for b in xrange(len( buckets))] 
float(sum(train bucket sizes)) 


train buckets scale = [sum(train bucket sizes[:i + 1] 


train bucket sizes - 
train total size - 
/ train total size 
for i in xrange(len(train bucket sizes))] 








# 开始 训练 循环 
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step time, loss = 0.0, 0.0 
current step - 0 
previous losses - [] 


while True: 

















* 随机 生成 一 个 0-1 的 数 ， 在 生成 Pucket_id 中 使 


random number 01 = np.random.random sample () 











bucket id = min([i for i in xrange(len(train buckets scale)) 
if train buckets scale[i] » random number 01] 





# 获取 一 个 批 次 的 数据 ， 并 进行 一 步 训练 


start time = time.time() 





encoder inputs, decoder inputs, target weights = model.get batch( 





train set, bucket id) 
., Step loss, _ = model.step(sess, encoder inputs, decoder inputs, 
target weights, bucket id, False) 
step time += (time.time() - start time) / gConfig['steps per checkpoint'] 
loss += step loss / gConfig['steps per checkpoint'] 
current step += 1 


* 保存 检查 点 文件 ， 打 印 统计 数据 


o 


if current step $ gConfig['steps per checkpoint'] == 0: 
perplexity = math.exp(loss) if loss < 300 else float('inf') 
print ("global step $d learning rate $.4f step-time $.2f perplexity " 
"$.2f" $ (model.global step.eval(), model.learning rate.eval(), 
step time, perplexity)) 
# 如 果 损 失 值 在 最 近 3 次 内 没有 再 降低 ， 就 减 小 学 习 率 . 


if len(previous losses) > 2 and loss > max(previous losses[-3:]): 




















sess.run(model.learning rate decay op) 
previous losses.append (loss) 
# 保存 检查 点 文件 ， 并 把 计数 器 和 损失 值 归 零 
checkpoint path = os.path.join(gConfig['working directory'], "seq2seq.ckpt") 





model.saver.save(sess, checkpoint path, global step-model.global step) 
step time, loss = 0.0, 0.0 


4. 验证 模型 





修改 seq2seq.ini 文件 中 的 mode 值 ， 当 值 为 “test” 时 ， 可 以 运行 execute.py 进行 测试 。 关 
键 逻辑 代码 如 下 : 





def decode(): 
with tf.Session() as sess: 
# 建立 模型 ， 并 定义 超 参数 batch size 
model = create model (sess, True) 
model.batch size = 1 # 这 里 一 次 只 解码 一 个 句子 











# 加 载 词汇 表 文件 


enc vocab path = os.path.join(gConfig['working directory'],"vocab$d.enc" $ 


我 们 训练 了 417 次 后 ， 生 成 了 大 小 为 209 MB 的 seq2seq.ckpt-417.data-00000-of-00001 模型 
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gConfig['enc vocab size']) 
dec vocab path = os.path.join(gConfig['working directory'],"vocab$d.dec" $ 
gConfig['dec vocab size']) 


enc vocab,  - data utils.initialize vocabulary (enc vocab path) 
_ rev dec vocab = data utils.initialize vocabulary (dec vocab path) 





























# 对 标准 输入 的 句子 进行 解码 

Sys.stdout.write("» ") 

Sys.stdout.flush() 

sentence - sys.stdin.readline() 

while sentence: 

得 到 输入 句子 的 token-ids 

token ids = data utils.sentence to token ids(tf.compat.as _ bytes (sentence), 
enc vocab) 

计算 这 个 token_ids 属于 哪 一 个 桶 (bucket) 

bucket id = min([b for b in xrange(len( buckets)) 

if buckets[b][0] » len(token ids)]) 











将 句子 送 入 到 模型 中 
encoder inputs, decoder inputs, target weights = model.get batch( 
(bucket id: [(token ids, [])]}, bucket id) 


_; ., Output logits = model.step(sess, encoder inputs, decoder inputs, 
target weights, bucket id, True) 

# 这 是 一 个 贪心 的 解码 器 ， 输 出 只 是 output_logits 的 argmaxes。 

outputs = [int (np.argmax (logit, axis=1)) for logit in output logits] 

# 如 果 输 出 中 有 EOS 符号 ， 在 EOS 处 切断 

if data utils.EOS ID in outputs: 








outputs = outputs[:outputs.index(data utils.EOS ID)] 
* 打印 出 与 输出 句子 对 应 的 法 语句 子 


print(" ".join([tf.compat.as str(rev dec vocab[output]) for output in 











outputs])) 
print("» ", end="") 
Sys.stdout.flush() 
sentence = sys.stdin.readline() 


























件 ， 开 始 进行 测试 ， 结 果 如 下 《 行 首 有 “>” 的 是 我 的 输入 ， 没 有 的 是 机 器 人 的 输出 ) 


> Hello 


Hi 




















> I love you. 
Yeah 

» What 

What? 

» Sunny day 
What? 
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如 果 再 输入 复杂 的 语句 ， 机 器 人 的 表现 就 不 尽 如 入 意 了 。 这 只 是 个 模型 的 简单 演示 实现 ， 
侧重 于 关注 聊天 机 器 人 的 原理 。 有 兴趣 的 读者 可 以 以 优质 的 中 文 对 话语 料 训练 一 个 简易 版 的 中 
文 对 话机 器 人 。 


前 面 介绍 了 基于 文字 的 智能 聊天 机 器 人 ， 如 果 再 结合 上 语音 识别 ， 就 产生 了 可 以 直接 对 话 


的 机 器 人 。 它 的 系统 架构 "如 图 11-4 所 示 。 
$ (ASR) (NLU) 
1 自然 语言 生成 


(NLG) 























































































































Z] 11-4 




















国内 的 智能 聊天 机 器 人 有 很 多 。 例 如 ， 图 灵机 器 人 公司 ， 着 力 于 提高 对 话 和 语义 准确 度 ， 
提升 中 文 语 境 下 的 智能 程度 ， 竹 间 智 能 科技 也 在 研究 有 记忆 、 自 学 习 的 情感 机 器 人 ， 致 力 于 机 
器 人 可 以 真正 理解 多 模式 多 渠道 的 信息 ， 并 给 予 高 度 拟人 化 的 回应 ， 和 希望 能 以 最 理想 的 自然 语 
言 交 流 模式 交流 ， 此 外 ， 腾 讯 公 司 也 有 很 多 的 社交 对 话 数 据 ， 在 聊天 机 器 人 方面 可 能 会 有 更 大 
的 潜力 。 
目前 国内 微 信 应 用 应 该 是 有 最 庞大 的 自然 语言 交流 的 语料库 ， 那 么 微 信 如 果 在 这 方面 发 
力 ， 利 用 它 庞 大 真实 的 数据 ， 结 合 它 的 小 程序 希望 成 为 所 有 服务 的 入 口 的 目的 ， 有 很 多 事情 可 
以 想象 。 例 如 ， 未 来 的 场景 可 能 是 ， 我 们 对 着 “ 微 信 助手 ”说 ， 定 个 石 锅 拌 饭 ， 它 就 直接 路 到 
外 卖 的 小 程序 ， 很 容易 完成 下 单 ， 用 完 即 走 。 
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11.4 小结 


本 章 主要 介绍 了 TensorFlow 在 自然 语言 处 理 中 的 应 用 ， 以 英文 数字 语言 识别 和 智能 聊天 
机 器 人 为 例 ， 讲 解 了 如 何 处 理 数 据 集 ， 构 建 网 络 ， 进 行 训 练 和 预测 。 关 于 自然 语言 处 理 还 有 
很 多 方面 ， 如 文本 情感 分 析 、 信 息 检 索 与 问答 系统 、 机 器 翻译 、 语 言 合 成 等 ， 读 者 也 可 以 多 
进行 尝试 。 































































































© 参见 《中 国人 工 智 能 学 会 通讯 》2016 年 第 6 卷 第 1 期 。 
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图 像 与 语音 的 结合 


mi 
am 





斯 坦 福 大 学 人 工 智 能 实验 室 的 李 飞 飞 教授 在 2017 年 极 客 大 会 上 曾经 讲 过 ， 实 现 人 工 
要 有 3 个 要 素 : 语法 (syntax)、 语 义 (semantics) 和 推理 (inference )， 如 图 12-1 所 示 。 




















语义 





图 12-1 




















语言 和 视觉 是 人 工 智 能 界 非常 关注 的 点 ， 也 就 是 说 ， 在 语言 和 视觉 层面 ， 通 过 语法 对 语 
言 来 说 是 语法 解析 ， 对 视觉 来 说 是 三 维 结构 的 解析 ) 和 语义 (对 语言 来 说 是 语义 ， 对 视觉 来 说 
是 物体 动作 的 含义 ) 作为 模型 的 输入 训练 数据 ， 最 终 实 现 推理 的 能 力 ， 也 就 是 把 训练 中 学 习 到 
的 能 力 应 用 到 工作 中 去 ， 从 新 的 数据 中 推断 出 结论 。” 























































































































12.44 看 图 说话 模型 


将 图 像 和 语言 融合 ， 就 是 “看 图 说 话 ”。 看 图 说 话 的 目标 是 ， 输 入 一 张 图 片 ， 希 望 
我 们 训练 的 看 图 说 话 模型 能 够 根据 图 像 给 出 描述 图 像 内 容 的 自然 语言 ， 讲 出 一 个 故事 。 
这 是 一 个 很 大 的 挑战 ， 因 为 这 需要 在 图 像 信息 和 文本 信息 这 两 种 不 同形 式 的 信息 之 间 进 
行 “ 翻 译 ”。 




























































































© 参考 论文 《The Syntax, Semantics and Inference Mechanism in Natural Language): http://www.aaai.org/Papers/Symposia/ 
Fall/1996/FS-96-04/FS96-04-010.pdf. 
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本 节 我 们 以 TensorFlow 的 官方 模型 为 例 ， 讲 解 如 何 训练 一 个 看 图 说 话 的 模型 。 这 个 模型 
要 达到 的 目标 是 : 我 们 给 出 一 张 图 片 ， 机 器 要 给 出 “A person on a beach flying a kite” 的 描述 ， 
如 图 12-2 所 示 。 








A person on a beach 
flying a kite. 





12-2 


12.1.1 原理 


看 图 说 话 模 型 采用 的 是 编码 器 -解码 器 框架 ， 先 将 图 像 编 码 成 固定 的 中 间 矢 量 , 然后 解码 成 
自然 语言 的 描述 。 编码 器 -解码 器 框架 如 图 12-3 所 示 。 这 里 编码 器 采用 的 是 Inception V3 图 像 识 
别 模型 ， 解 码 器 采用 的 是 LSTM 网 络 。 




































































12-3 





(D https://github.com/tensorflow/models/tree/master/im2txt 
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在 图 12-3 中 ，fso sw 是 字幕 的 词 ，fweso ws ws 是 它们 对 应 的 词 嵌 入 向 量 ，LSTM 
的 输出 {pi1, p23…, pw 是 由 句子 中 的 下 一 个 词 生 成 的 概率 分 布 。{log pisi), log ps2), log pnGs)} 是 正 
确 词 在 每 一 个 步 又 的 对 数 似 然 ， 这 几 个 值 的 总 和 取 负 数 是 我 们 模型 的 最 小 化 目标 。 
















































































12.1.2 AELE 
这 里 使 用 微软 的 Microsoft COCO Caption 数据 集 ”， 每 张 图 片 有 5 个 标题 文字 。Microsoft 
COCO Caption 数据 集 有 两 部 分 ， 即 2014 年 版 本 和 2015 年 版 本 。 这 里 采用 的 是 2014 年 版 本 ”。 
为 了 能 够 直接 使 用 预 训练 的 Inception V3 模型 ， 这 里 采用 TensorFlow-Slim 图 像 分 类 库 。 


这 里 直接 用 现成 的 代码 来 训练 模型 ， 主 要 讲解 构建 模型 的 过 程 。 训 练 的 代码 在 
tensormodels/im2txt/im2txt/train.py 中 ， 构 建 模 型 的 代码 在 tensormodels/im2txt/im2txt/show _ 
and tell model.py 中 。 


ShowAndTellModel 的 build 函数 中 说 明了 构建 模型 的 过 程 : 
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class ShowAndTellModel (object): 



































def build(self): 
self.build inputs() # 构建 输入 数据 
self.build image embeddings() # 采用 Inception V3 构建 图 像 模 型 ， 并 且 输 出 图 片 嵌 入 向 量 
self.build seq embeddings () # 构建 输入 序列 的 embeddings 
self.build model() # 将 CNN 和 LSTM 串联 起 来 ， 构 建 完整 模型 
self.setup inception initializer() 载 入 Inception V3 预 训练 模型 
self.setup global step() # 记录 全 局 的 迭代 次 数 








我 们 看 看 训练 时 是 如 何 做 的 : 








def main (unused argv): 
assert FLAGS.input file pattern, "--input file pattern is required" 
assert FLAGS.train dir, "--train dir is required" 


model config = configuration.ModelConfig|() 

model config.input file pattern - FLAGS.input file pattern 

model config.inception checkpoint file - FLAGS.inception checkpoint file 
training config = configuration.TrainingConfig() 





# 创建 训练 结果 的 存储 路 径 








A 





(D http://mscoco.org/» Microsoft COCO Caption 数据 集 是 建立 在 Microsoft Common Objects in Context (COCO ) 数据 自 
的 工作 基础 上 的 。COCO 含有 超过 30 万 张 图 片 ，200 万 个 标记 实体 。Microsoft COCO Caption 是 对 原 COCO 数据 
集中 约 33 万 张 图 片 ， 使 用 亚马逊 公司 的 Mechanical Turk 服务 ， 人 工地 为 每 张 图 片 生 成 了 至 少 5 名 标注， 标注 语 
名 总 共 超 过 了 150 万 句 。 

© 2014 年 版 本 中 训练 集 有 82 783 张 图 片 ， 验 证 集 有 40 504 张 图 片 和 测试 集 有 40 775 张 图 片 。 


© https://github.com/tensorflow/models/tree/master/slim 
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train dir = FLAGS.train dir 

if not tf.gfile.IsDirectory(train dir): 
tf.logging.info("Creating training directory: $s", train dir) 
tf.gfile.MakeDirs (train dir) 








# 建立 TensorFlow 数据 流 图 
g = tf.Graph() 
with g.as default(): 
# 构建 模型 
model = show and tell model.ShowAndTellModel( 
model config, mode-"train", train inception-FLAGS.train inception) 
model.build() 





# 定义 学 习 率 
learning rate decay fn = None 
if FLAGS.train inception: 


learning rate = tf.constant (training config.train inception learning rate) 
else: 
learning rate = tf.constant (training config.initial learning rate) 


if training config.learning rate decay factor > O0: 
num batches per epoch = (training config.num examples per epoch / 
model config.batch size) 
decay steps - int(num batches per epoch * 
training config.num epochs per decay) 


def learning rate decay fn(learning rate, global step): 
return tf.train.exponential decay( 
learning rate, 
global step, 
decay steps-decay steps, 
decay rate-training config.learning rate decay factor, 
Staircase-True) 


learning rate decay fn = learning rate decay fn 


# 定义 训练 的 操作 

train op = tf.contrib.layers.optimize loss( 
loss-model.total loss, 
global step-model.global step, 
learning rate-learning rate, 
optimizer-training config.optimizer, 
clip gradients-training config.clip gradients, 
learning rate decay fn-learning rate decay fn) 


saver = tf.train.Saver(max to keep-training config.max checkpoints to keep) 


* 训练 
tf.contrib.slim.learning.train( 
train op, 
train dir, 


log every n steps-FLAGS.log every n steps, 
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graph-g, 

global step-model.global step, 

number of steps-FLAGS.number of steps, 
init fn-model.init fn, 


saver-saver) 


最 后 运行 tensormodels/im2txt/im2txt/run inference.py 来 预测 生成 的 模型 。 输 入 一 张 图 片 ， 
看 看 它 给 出 的 描述 。 输 入 图 12-4 所 示 的 图 片 。 





结果 如 下 : 


Captions for image COCO val2014 000000224477.jpg: 
0) a man riding a wave on top of a surfboard . (p-0.040413) 
1) a person riding a surf board on a wave (p-0.017452) 
2) a man riding a wave on a surfboard in the ocean . (p-0.005743) 


它 给 出 了 3 个 带 概率 分 布 的 句子 ， 意 思 表 达 得 比较 准确 ， 而 且 语法 也 合乎 自然 逻辑 


我 们 也 希望 今后 看 图 说 话 能 够 给 出 更 长 的 描述 。 现 在 有 些 公司 的 自动 化 新 闻 写 作 机 器 人 已 
经 可 以 根据 视频 直播 结合 一 些 历 史 数据 ， 写 作 关 于 奥运 、 体 育 等 类 型 的 稿件 了 。 








o 


























12.2 小 结 





本 章 主要 讲述 了 图 像 和 自然 语言 相 结合 的 应 用 一 一 看 图 说 话 。 这 个 模型 结合 了 卷 积 神 经 网 
络 Inception V3 模型 和 循环 神经 网 络 LSTM 模型 。 实 现 过 程 中 ， 首 先 将 图 像 转换 成 图 像 嵌 入 向 
量 ， 然 后 用 类 似 于 词 嵌 入 的 方法 来 训练 。 关 于 图 像 和 语言 相 结合 的 例子 还 有 图 像 语义 标注 、 图 
像 语义 分 析 等 ， 读 者 可 以 自行 实践 。 























m- 第 13 章 ng 
生成 式 对 抗 网 络 





生成 式 对 抗 网 络 (generative adversarial network, GAN) 是 由 谷歌 公司 在 2014 年 提出 的 一 
个 网 络 模型 ， 主 要 灵感 来 自 于 二 人 博弈 中 的 零 和 博弈 ， 也 是 目前 最 火热 的 非 监督 深度 学 习 的 代 
X. “GAN 之 父 ”IanJ. Goodfellow 也 被 公认 为 人 工 智 能 的 顶级 专家 。 

Yann Lecun 在 Quora 上 答题 时 曾 说 ， 他 最 激动 的 深度 学 习 进 展 是 生成 式 对 抗 网 络 。 















































13.1 生成 式 对 抗 网 络 的 原理 


生成 式 对 抗 网 络 包 含 一 个 生成 模型 Cgenerative model, G) 和 一 个 判别 模型 (discriminative 
model，D)。 本 节 内 容 参考 了 Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, 
David Warde-Farley、Sherjil Ozair, Aaron Courville, Yoshua Bengio 的 论文 《Generative Adversarial 
Networks) ^. 


生成 式 对 抗 网 络 的 网 络 结构 如 图 13-1 所 示 。 






真 / 假 





训练 集 


图 13-1 

生成 式 对 抗 网 络 主要 解决 的 问题 是 如 何 从 训练 样本 中 学 习 出 新 样本 。 生成 模型 就 是 负责 训练 出 
样本 的 分 布 ， 如 果 训 练 样本 是 图 片 就 生成 相似 的 图 片 ， 如 果 训 练 样本 是 文章 句子 就 生成 相似 的 文章 
句子 。 判 别 模型 是 一 个 二 分 类 器 ， 用 来 判断 输入 样本 是 真实 数据 还 是 训练 生成 的 样本 。 
































(D https://arxiv.org/abs/1406.2661 
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生成 式 对 抗 网 络 的 优化 是 一 个 二 元 极 小 极 大 博 弃 (minimax two-player game) 问题 ， 它 的 
目的 是 使 生成 模型 的 输出 再 输入 给 判别 模型 时 ， 判 别 模型 很 难 判断 是 真实 数据 还 是 虚假 数据 。 
训练 好 的 生成 模型 ， 有 能 力 把 一 个 噪声 向 量 转化 成 和 训练 集 类 似 的 样本 。 


\ 体 到 每 一 个 生成 式 对抗 网 络 的 模型 ， 有 很 多 种 结构 ， 不 过 整体 思路 是 不 变 的 ， 如 图 13-2 所 示 。 

































































Vanilla GAN Discriminator Looks at Latent Variables Discriminator Predicts Latent Variables 
Vanilla GAN Conditional GAN Bidirectional GAN Semi-Supervised GAN InfoGAN Auxiliary Classifier GAN 
(Goodfellow,etal2014) | (Mirza & Osindero.2014) (Donahueetal2016; DumoulinetaL2016)|(Odera2016; Salimanscetal2016| | (Chen.etal.2016) (Odena.et.al.2016) 








读者 也 可 以 设计 自己 的 GAN 网 络 架 构 。 我 们 主要 讲解 辅助 分 类 器 生成 式 对 抗 网 络 Cauxiliary 
classifier GAN，AC-GAN) 的 实现 。 


13.2 ”生成 了 式 对 抗 网 络 的 应 用 


生成 式 对 抗 网 络 取得 的 成 果 有 很 多 ， 目 前 在 生成 数字 和 生成 人 脸 图 像 方面 表现 都 非常 好 ， 


目前 也 是 深度 学 习 研 究 的 一 个 重要 思路 。 图 13-3 给 出 的 是 训练 好 的 生成 式 对 抗 网 络 的 生成 模型 
产生 出 来 的 一 些 样 本 。 






































© 本 图 出 自 Augustus Odena, Christopher Olah 和 Jonathon Shlens 的 论文 《Conditional Image Synthesis with Auxiliary 
Classifier GANs) : https://arxiv.org/pdf/1610.09585.pdf 。 
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图 13-3 ( 续 )” 


『 13.3 ”生成 式 对抗 网 络 的 实现 ”| 


我 们 拿 AC-GAN 作为 例子 ， 看 如 何在 MNIST 数据 集 上 实现 生成 式 对 抗 网 络 。 这 个 实现 代 
人 码 是 以 Augustus Odena, Christopher Olah 和 Jonathon Shlens 的 论文 《Conditional Image Synthesis 
With Auxiliary Classifier GANs) 为 基础 的 。 


正如 图 13-2 所 示 ， 我 们 通过 噪声 ， 让 生成 模型 G 生成 虚假 数据 ， 然 后 和 真实 数据 一 起 送 
到 判别 模型 D 当中 ,判别 模型 一 方面 输出 这 个 数据 的 真 / 假 ， 另 一 方面 输出 这 个 图 片 的 分 类 (对 
于 MNIST 来 说 就 是 0~9)。 我 们 现在 来 看 具体 的 代码 实现 。 

首先 定义 生成 模型 ， 目 的 是 要 生成 一 对 (z, L) 数据 ， 其 中 z 是 噪声 向 量 , L 是 (1, 28, 28) 
的 图 像 空 间 ， 如 下 : 
































def build generator(latent size): 
cnn = Sequential() 


cnn.add(Dense(1024, input dim-latent size, activation-'relu'!)) 
cnn.add(Dense(128 * 7 * 7, activation-'relu!')) 
cnn.add(Reshape((128, 7, 7))) 


# 上 采样 ， 图 像 尺 寸 变 为 14x14 

cnn.add(UpSampling2D(size-(2, 2))) 

cnn.add(Convolution2D(256, 5, 5, border mode-'same', 
activation-'relu', init-'glorot normal')) 





# 上 采样 ， 图 像 尺 寸 变 为 28 X28 














© 本 图 出 自 IanJ. Goodfellow, Jean Pouget-Abadie、Mehdi Mirza, Bing Xu. David Warde-Farley、Sherjil Ozair, Aaron 
Courville 和 Yoshua Bengio 的 论文 《Generative Adversarial Networks) : https://arxiv.org/abs/1406.2661。 


本 节 代 码 参 考 https;//github.com/fchollet/keras/blob/master/examples/mnist acgan.py。 
https://arxiv.org/abs/1610.09585 


© © 


接 
为 这 张 


de 
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cnn.add(UpSampling2D(size-(2, 2))) 
cnn.add(Convolution2D(128, 5, 5, border mode-'same', 
activation-'relu', init-'glorot normal') 


# 规约 到 1 个 通道 
cnn.add(Convolution2D(1, 2, 2, border mode-'same', 
activation-'tanh', init-'glorot normal')) 











* 生成 模型 的 输入 层 ， 特 征 向 量 
latent = Input(shape-(latent size, )) 











# 生成 模型 的 输入 层 ， 标 记 

image class = Input(shape-(1,), dtype-'int32"') 

cls = Flatten() (Embedding (10, latent size, init-'glorot normal') (image class) 
h = merge([latent, cls], mode-2'mul') 

fake image = cnn(h) # 输出 虚假 图 片 


return Model(input-[latent, image class], output-fake image) 


下 来 我 们 定义 判别 模型 ， 输 入 (1，28,28)〉 的 图 片 ， 输 出 有 两 个 值 ， 一 个 是 判别 模型 认 
图 片 是 否 是 虚假 图 片 ， 男 一 个 是 判别 模型 认为 这 张 图 片 所 属 的 分 类 。 






































f build discriminator(): 
* 采用 激活 函数 Leaky ReLU 来 蔡 换 标准 的 卷 积 神经 网 络 中 的 激活 函数 


cnn = Sequential() 












































cnn.add(Convolution2D(32, 3, 3, border mode-'same', subsample-(2, 2), 
input shape-(1, 28, 28))) 

cnn.add(LeakyReLU()) 

cnn.add (Dropout (0.3)) 


cnn.add(Convolution2D(64, 3, 3, border mode='same', subsample-(1, 1)) 
cnn.add (LeakyReLU()) 
cnn.add (Dropout (0.3)) 


cnn.add(Convolution2D(128, 3, 3, border mode-'same', subsample-(2, 2))) 
cnn.add(LeakyReLU()) 
cnn.add (Dropout (0.3)) 


cnn.add(Convolution2D(256, 3, 3, border mode-'same', subsample-(1, 1)) 
cnn.add(LeakyReLU()) 
cnn.add (Dropout (0.3)) 








cnn.add(Flatten()) 


image = Input(shape-(1, 28, 28) 
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features = cnn (image) 


* 有 两 个 输出 
# 输出 真 假 值 ， 范 围 在 0 一 1 

fake = Dense(1, activation-'sigmoid', name-'generation') (features) 
* 辅助 分 类 器 ， 输 出 图 片 的 分 类 


aux = Dense(10, activation-'softmax', name-'auxiliary') (features) 























return Model(input-image, output-[fake, aux]) 


下 面 开 始 写 训 练 的 过 程 ， 我 们 进行 50 轮 (epoch)， 并 把 权重 保存 下 来 ， 每 轮 也 把 虚假 数据 
生成 的 图 片 保 在 下 来 ， 便 于 观察 虚假 数据 的 演化 过 程 ， 代 码 如 下 : 








X 





















































if name == ' main . 
* 定义 超 参数 

nb epochs = 50 

batch size - 100 
latent size - 100 


# 优化 器 的 学 习 率 
adam lr = 0.0002 
adam beta 1 = 0.5 





# 构建 判别 网 络 
discriminator = build qiscriminator () 
discriminator.compile( 
optimizer-Adam(lr-adam lr, beta 1-adam beta 1), 
loss-['binary crossentropy', 'sparse categorical crossentropy'] 








* 构建 生成 式 网 络 

generator = build generator(latent size) 

generator.compile(optimizer-Adam(lr-adam lr, beta 1-adam beta 1), 
loss-'binary crossentropy') 


latent - Input(shape-(latent size, )) 
image class = Input(shape-(1,), dtype-'int32"') 


# 生成 虚假 图 片 


fake = generator([latent, image class]) 


# 生成 组 合 模型 

discriminator.trainable = False 

fake, aux = discriminator(fake) 

combined - Model(input-[latent, image class], output-[fake, aux]) 


combined.compile(optimizer-Adam(lr-adam lr, beta l-adam beta 1), 
loss-['binary crossentropy', 'sparse categorical crossentropy'] 


第 13 章 ”生成 式 对 抗 网 络 44 











7 
zi 





# 将 mnist 数据 转化 为 (...，1，28，28) 维度 ， 并 且 取 值 范围 为 [-1，1] 
(X train, y train), (X test, y test) = mnist.load data() 
X train = (X train.astype(np.float32) - 127.5) / 127.5 








X train - np.expand dims(X train, axis-1) 


X test = (X test.astype(np.float32) - 127.5) / 127.5 
X test - np.expand dims(X test, axis-1) 


nb train, nb test - X train.shape[0], X test.shape[0] 


train history = defaultdict (list) 
test history = defaultdict (list) 


for epoch in range (nb epochs): 
print('Epoch () of {}'.format (epoch + 1, nb epochs)) 


nb batches = int(X train.shape[0] / batch size) 
progress bar = Progbar(target-nb batches) 


epoch gen loss - [] 
epoch disc loss - [] 


for index in range (nb batches): 
progress bar.update (index) 
产生 一 个 批 次 的 噪声 数据 
noise = np.random.uniform(-1, 1, (batch size, latent size)) 





获取 一 个 批 次 的 真实 数据 
image batch = X train[index * batch size:(index + 1) * batch size] 
label batch - y train[index * batch size:(index * 1) * batch size] 





生成 一 些 噪 声 标记 
sampled labels = np.random.randint(0, 10, batch size) 





产生 一 个 批 次 的 虚假 图 片 


generated images = generator.predict( 








[noise, sampled labels.reshape((-1, 1))], verbose-0) 
X = np.concatenate((image batch, generated images)) 


y = np.array([1] * batch size + [0] * batch size) 
aux y = np.concatenate((label batch, sampled labels), axis-0) 


epoch disc loss.append(discriminator.train on batch(X, [y, aux y])) 


# 产生 两 个 批 次 的 噪声 和 标记 
noise = np.random.uniform(-1, 1, (2 * batch size, latent size)) 
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sampled labels = np.random.randint (0, 10, 2 * batch size) 
* 我 们 训练 生成 模型 来 欺骗 判别 模型 ， 所 以 将 输出 的 真 / 假 都 设 为 真 
trick = np.ones(2 * batch size) 


epoch gen loss.append(combined.train on batch( 
[noise, sampled labels.reshape((-1, 1))], [trick, sampled labels])) 


print('MnTesting for epoch {}:'.format (epoch + 1) 


# 评估 测试 集 








# 产生 一 个 新 批 次 的 噪声 数据 
noise = np.random.uniform(-1, 1, (nb test, latent size)) 


sampled labels - np.random.randint(0, 10, nb test) 
generated images - generator.predict( 
[noise, sampled labels.reshape((-1, 1))], verbose-False) 


X np.concatenate((X test, generated images)) 
y = np.array([1] * nb test + [0] * nb test) 
aux y = np.concatenate((y test, sampled labels), axis-0) 


# 看 看 判别 模型 是 否 能 判别 


discriminator test loss = discriminator.evaluate(X, [y, aux y], verbose-False) 
discriminator train loss - np.mean(np.array(epoch disc loss), axis-0) 


# 创建 两 个 批 次 新 的 噪声 数据 
noise - np.random.uniform(-1, 1, (2 * nb test, latent size)) 
sampled labels = np.random.randint(0, 10, 2 * nb test) 





trick = np.ones(2 * nb test) 

generator test loss - combined.evaluate( 
[noise, sampled labels.reshape((-1, 1))], 
[trick, sampled labels], verbose-False) 


generator train loss - np.mean(np.array(epoch gen loss), axis-0) 


* 把 损失 值 等 性 能 指标 记录 下 来 ， 并 输出 


train history['generator'].append(generator train loss) 








train history['discriminator'].append(discriminator train loss) 


test history['generator'].append(generator test loss) 
test history['discriminator'].append(discriminator test loss) 


print('(0:«22s) | (1:4s) | (2:15s) | (3:5s])'.format('component', 
*discriminator.metrics names)) 
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print (=t *-55) 

ROW FMT = '[0:«22s) | {1:<4.2f} | {2:<15.2f} | {3:<5.2f} 

print(ROW FMT.format('generator (train)', *train history['generator'][-1])) 
print(ROW FMT.format('generator (test)', *test history['generator'][-1])) 


print(ROW FMT.format('discriminator (train)', 

*train history ['discriminator'][-1])) 
print(ROW FMT.format('discriminator (test)', 

*test history ['discriminator'][-1])) 





# 每 一 个 eopch 保存 一 次 权重 
generator.save weights('params generator epoch {0:03d} .hdf5'.format 
(epoch), True) 


discriminator.save weights('params discriminator epoch (0:03d].hdf5'. 
format(epoch), True) 





# 生成 一 些 可 视 化 的 虚假 的 数字 来 看 演化 过 程 


noise = np.random.uniform(-1, 1, (100, latent size) ) 


sampled labels = np.array([[i] * 10 for i in range(10)]).reshape(-1, 1) 


generated images - generator.predict([noise, sampled labels], verbose-0) 


# 整理 到 一 个 方 格 中 
img = (np.concatenate([r.reshape(-1, 28) 
for r in np.split(generated images, 10) 
], axis--1) * 127.5 + 127.5).astype (np.uint8) 


Image.fromarray (img).save('plot epoch (0:03d) generated.png'.format (epoch)) 


pickle.dump(í('train': train history, 'test': test history], 
open('acgan-history.pkl', 'wb')) 


训练 结束 后 ， 会 创建 以 下 3 类 文件 。 

e params discriminator epoch {{epoch number}}.hdfs : 
判别 模型 的 权重 参数 。 

e params generator epoch {{epoch number}}.hdf5: Æ 
成 模型 的 权重 参数 。 

e plot epoch {{epoch number]! generated.png: 产生 
的 一 些 虚假 数据 的 图 片 。 

在 训练 过 程 中 ， 刚 开始 看 到 的 图 像 是 杂乱 的 。 例 如 ， 第 

一 轮 结束 后 的 图 像 如 图 13-4 所 示 。 
在 5 轮 后 ， 可 以 看 到 一 些 差 不 多 的 图 像 ， 如 图 13-5 所 示 。 
在 训练 15 轮 后 ， 可 以 得 到 一 些 良 好 的 图 像 ， 如 图 13-6 所 示 。 
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:HSE E, TE 15 轮 左 右 ， 训 练 损 失 就 已 经 收敛 到 纳什 均衡 点 CNash equilibrium point) 。 
13.4 生成 式 对 抗 网 络 的 改进 
生成 式 对 抗 网 络 〈generative adversarial network, GAN) 在 无 监督 学 习 上 是 非常 有 效 的 。 但 
是 ， 和 常规 的 生成 式 对 抗 网 络 的 判别 器 使 用 的 是 Sigmoid Z XRM A ERG, KEER hE 
导致 梯度 消失 。 生 成 式 对 抗 网 络 的 一 个 改进 是 Wasserstein 生成 式 对 抗 网 络 ( Wasserstein 




















generative adversarial network, WGAN), 
生成 式 对 抗 网 络 
抗 网 络 (east squares generative adversarial network, LSGAN 





JÆ (ensen-Shannon divergence, JSD). 














函数 (east squares loss function )。 关 于 更 多 它们 之 前 的 区 别 ， 


它 使 用 Wasserstein 距离 度量 而 不 是 Jensen-Shannon #4 
的 另 一 个 改进 是 使 用 最 小 二 
)， 它 的 判别 模型 


乘 生成 式 对 
采用 最 小 平方 损失 
读者 可 参考 Sebastian Nowozin、 





Botond Cseke 和 Ryota Tomioka 的 论文 《f-GAN: Training Generative Neural Samplers using 


- "NP D 
Variational Divergence Minimization) o 
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本 章 讲解 了 2017 年 初 最 令 学 术 界 惊喜 的 进展 一 一 生成 式 对 
的 应 用 以 及 多 个 变种 ， 并 且 以 AC-GAN 作为 例子 使 用 
练 可 以 看 到 不 错 的 效果 。 生 成 式 对 抗 网 络 的 改进 主要 有 两 个 方向 : 
] 不 同 的 损失 函数 。 
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TensorFlow 进行 了 实现 ， 


抗 网 络 ， 包 括 它 的 原理 、 
在 MNIST 上 
一 是 度量 距离 的 算法 ， 
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终于 学 完 基础 篇 和 实战 篇 了 ， 相 信 读 者 已 经 掌握 了 先 阅读 论文 了 解 原理 ， 
然后 复 现 模型 、 调 整 模型 ， 最 后 用 自己 的 数据 训练 模型 的 一 整套 方法 。 下 面 我 
们 进入 提高 篇 ， 提 高 篇 主要 着 力 于 在 训练 集 数据 量 极 大 、 网 络 模型 极 大 (也 就 
是 参数 极 多 ) 的 情况 下 ， 我们 应 该 采用 什么 样 的 分 布 式 架 构 设 计 ， 以 及 如 何 配 
合 Kubernetes, Spark 等 工具 来 做 训练 。 

除 此 之 外 , 还 介绍 几 个 TensorFlow 非常 有 潜力 的 新 特性 ， 如 线性 代数 编译 框 
ZR XLA、 调 试 工 具 Debugger. TensorFlow 在 移动 端 上 的 应 用 、 生 产 环境 工具 
Serving、 动 态 计算 图 工具 Flod 等 。 最 后 介绍 一 些 机 器 学 习 的 评测 体系 。 

TensorFlow 本 身 是 一 把 非常 好 用 的 锤子 ,基础 篇 介绍 了 锤子 的 结构 ， 实 战 篇 我 
们 学 会 了 用 锤子 砸 核桃 的 动作 ， 如 果 砸 的 进度 非常 慢 怎 么 办 ? 用 分 布 式 并 行 ,， 配合 
分 布 式 集群 的 管理 Kubernetes。 如 果 核 桃 特别 多 (训练 数据 非常 多 ) 得 无 法 存储 怎 
么 办 ? 用 Spark 作为 访问 分 布 式 文件 系统 上 数据 的 方式 。 如 何 优化 计算 图 本 身 呢 ? 
用 XLA 框架 。 砸 得 不 对 怎么 调试 呢 ? 用 Debugger。 如 果 在 手掌 上 (资源 有 限 的 移 
动 端 ) 砸 核桃 怎么 办 ? 有 一 天 要 登台 表演 砸 核桃 , 是 不 是 应 该 多 准备 几 个 砸 的 姿势 
(生产 环境 工具 Serving) ? 砸 得 好 不 好 如 何 来 评价 (机 器 学 习 的 评测 体系 ) 呢 ? 

相信 通过 对 这 些 内 容 的 学 习 ， 读 者 会 对 TensorFlow 框架 的 各 个 方面 有 更 深 
入 的 了 解 .让 我 们 快 开 始 吧 ， 我 曾 用 这 篇 中 的 知识 面试 过 很 多 人 ， 学 懂 这 些 知 
识 可 能 有 机 会 “秒杀 ”面试 官 。 
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TensorFlow 的 一 大 亮点 就 是 支持 分 布 式 计算 。 分布 式 TensorFlow 是 由 高 性 能 的 gRPC 库 作 
为 底层 技术 来 文 持 的 。 本 章 我 们 就 来 学 习 分 布 式 TensorFlow 所 支持 的 架构 和 适用 场景 。 
本 章 前 3 节 主 要 参考 了 Martin Abadi, Ashish Agarwal 和 Paul Barham 等 的 论文 《TensorFlow: 


Large-Scale Machine Learning on Heterogeneous Distributed Systems》 E^ 














14.4 分 布 式 原理 


首先 ， 我 们 介绍 TensorFlow 的 分 布 式 原理 。TensorFlow 的 分 布 式 集群 由 多 个 服务 器 进程 和 
客户 端 进程 组 成 。TensorFlow 有 儿 种 部 署 方式 ， 如 单机 多 卡 和 分 布 式 《〈 多 机 多 卡 )， 一 般 我 们 
把 多 机 多 卡 的 部 署 称 为 TensorFlow 的 分 布 式 。 本 节 先 介绍 单机 多 卡 和 分 布 式 的 区 别 ， 随 后 介绍 
分 布 式 的 部 署 方式 。 
















































































14.1.1 单机 多 卡 和 分 布 式 

单机 多 卡 是 指 单 台 服 务 器 有 多 块 GPU。 假 设 一 台 机 器 上 有 4 块 GPU， 单 机 多 GPU 的 训练 
过 程 如 下 。 

CD 在 单机 单 GPU 的 训练 中 , 数据 是 一 个 批 次 (batch) 一 个 批 次 地 训练 的 。 在 单机 多 GPU 
中 ， 一 次 处 理 4 个 批 次 的 数据 ， 每 个 GPU 处 理 一 个 批 次 的 数据 计算 。 

(2) 变量 ， 也 就 是 参数 ， 保 存在 CPU 上 ， 数 据 由 CPU 分 发 给 4 个 GPU， 在 GPU 上 完成 
计算 ， 得 到 每 个 批 次 要 更 新 的 梯度 。 

(3) 在 CPU 上 收集 完 4 个 GPU 上 要 更 新 的 梯度 ， 计 算 一 下 平均 梯度 ， 然 后 更 新 参数 。 

(4) 继续 第 2 步 和 第 3 步 ， 循 环 这 个 过 程 。 
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这 个 过 程 的 处 理 速度 取决 于 最 慢 的 那个 GPU 的 速度 。 如 果 4 个 GPU 的 处 理 速度 差不多 ， 
处 理 速 度 就 相当 于 单机 单 GPU 的 速度 的 4 倍 减 去 数据 在 CPU 和 GPU 之 间 传 输 的 开销 。 但 是 ， 
这 样 进 行 并 行 训 练 ， 运 算 能 力 还 是 限制 在 单机 上 。 

分 布 式 是 指 训练 在 多 个 工作 节点 (worker) 上 。 工 作 节点 是 指 实现 计算 的 一 个 单元 ， 如 果 
计算 服务 器 是 单 卡 ， 一 般 就 是 指 这 台 服 务 器 ; 如 果 计 算 服 务 器 是 多 卡 ， 还 可 以 根据 多 个 GPU XJ 
分 多 个 工作 节点 。 当 数据 量 大 到 超过 一 台 机 器 的 处 理 能 力 时 ， 必 须 使 用 分 布 式 。 

分 布 式 TensorFlow 底层 的 通信 是 gRPC (google remote procedure call)。gRPC 是 谷歌 开源 的 一 
个 高 性 能 、 跨 语言 的 RPC 框架 。RPC 协议 ， 即 远程 过 程 调用 协议 ， 是 指 通 过 网 络 从 远程 计算 机 程 
序 上 请 求 服务 。 也 就 是 说 ,假设 你 在 本 机 上 执行 一 段 代码 num=add(a, b)， 它 被 调用 后 ， 得 到 一 个 返 
回 结果 ， 你 感觉 这 段 代码 是 在 本 机 上 执行 的 ， 但 实际 情况 是 ， 本 机 上 的 add 方法 是 将 参数 打包 发 送 
给 远程 服务 器 ， 由 远程 服务 器 运行 add 方法 ， 将 返回 的 结果 再 打包 返回 给 本 机 客户 端的 。 































































































































































































14.12 ”分布 式 部 署 方式 


在 分 布 式 运行 的 情况 下 ， 我 们 需要 有 多 个 计算 单元 (工作 节点 )， 后 端的 服务 器 可 以 部 署 
为 单 工作 节点 和 多 工作 节点 。 




















1. 单 工作 节点 部 署 














单 工作 节点 部 署 是 在 每 台 服 务 器 上 运行 一 个 工作 节点 ， 假 设 服务 器 有 4 个 GPU， 一 个 工作 
节点 可 以 访问 4 块 GPU 卡 ， 这 时 需要 在 代码 中 使 用 给 device() 指 定 运行 操作 的 设备 。 

单 工作 节点 部 署 的 优势 是 在 单机 多 个 GPU 间 需 要 通信 的 情况 下 ， 效 率 更 高 。 例 如 ， 可 以 
实现 RNN 的 模型 并 行 。 单 工作 节点 部 署 的 劣势 是 需要 手动 在 代码 中 指定 设备 。 
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多 工作 节点 是 指 一 台 服 务 器 上 可 以 运行 多 个 工作 节点 。 部 署 有 以 下 两 种 方法 。 

(D) 设置 CUDA_VISIBLE_ DEVICES 环境 变量 ， 限 制 各 个 工作 节点 只 可 见 一 个 GPU， 启 
动 进程 时 添加 环境 变量 即 可 。 例 如 ， 每 个 工作 节点 只 能 访问 一 个 GPU， 在 代码 中 不 需要 额外 指 
定 。 示 例如 下 : 

CUDA VISIBLE DEVICES-'' python ./distributed supervisor.py --ps hosts- 

127.0.0.1:2222,127.0.0.1:2223 --worker hosts-127.0.0.1:2224,127.0.0.1:2225 

--job name-ps --task index-0 

CUDA VISIBLE DEVICES-'' python ./distributed supervisor.py 


--ps hosts-127.0.0.1:2222,127.0.0.1:2223 --worker hosts-127.0.0.1:2224, 
127.0.0.1:2225 --job name-ps --task index-1 















































© 代码 参 考 https://github.com/tobegit3hub/tensorflow examples/tree/master/distributed tensorflow o 
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CUDA VISIBLE DEVICES-'0' python ./distributed supervisor.py 

--ps hosts-127.0.0.1:2222,127.0.0.1:2223 --worker hosts-127.0.0.1:2224, 
127.0.0.1:2225 --job name-worker --task index-0 

CUDA VISIBLE DEVICES-'1' python ./distributed supervisor.py 

--ps hosts-127.0.0.1:2222,127.0.0.1:2223 --worker hosts-127.0.0.1:2224, 
127.0.0.1:2225 --job name-worker --task index-1 























(2) 使 用 tf.device() 指 定 使 用 特定 的 GPU. 
多 工作 节点 部 署 的 优势 是 代码 简单 ， 提 高 GPU 使 用 率 。 多 工作 节点 部 署 的 劣势 是 工作 节 
点 间 如 果 需 要 通信 就 不 能 利用 本 地 GPU 通信 的 优势 ， 而 且 部 署 时 需要 部 署 多 个 工作 节点 。 







































































14.2 ”分布 式 架构 ” 


了 解 了 分 布 式 的 原理 之 后 ， 我 们 来 看 一 下 分 布 式 架 构 的 组 成 。 分 布 式 架 构 主 要 由 客户 端 
(client〉 和 服务 端 (server) 组 成 ， 服 务 端 又 包括 主 节点 (master) 和 工作 节点 Cworker) 两 者 
组 成 。 我 们 需要 关注 客户 端 、 主 节点 和 工作 节点 这 三 者 间 的 关系 和 它们 的 交互 过 程 
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14.2.14 “客户 端 、 主 节点 和 工作 节点 的 关系 


简单 地 来 说 ， 在 TensorFlow 中 ， 客 户 端 通过 会 话 来 联系 主 节点 ， 实 际 的 工作 交 由 工作 节点 实现 。 
每 个 工作 节点 占据 一 台 设 备 (是 TensorFlow 具体 计算 的 硬件 抽象 ， 即 CPU 或 GPU)。 在 单机 模式 下 


































































































客户 端 、 主 节点 和 工作 节点 都 在 同一 台 服 务 器 上 ;在 分 布 式 模式 下 ， 它 们 可 以 位 于 不 同 的 服务 器 上 。 


工作 节点 
/job:worker/task:0 





























图 14-1 展示 了 这 三 者 之 间 的 关系 。 














工作 节点 
/job:ps/task:0 





图 14-1" 











1. Pm 

















客户 端 用 于 建立 TensorFlow 计算 图 ， 并 建立 与 集群 进行 交互 的 会 话 层 。 因 此 ， 代 码 中 只 要 
包含 Session(0) 就 是 客户 端 。 一 个 客户 端 可 以 同时 与 多 个 服务 端 相 连 ， 同 时 一 个 服务 端 也 可 以 与 




















CO 本 节 内 容 参 考 https://www.tensorflow.org/extend/architecture。 








Q 本 网 出 自 https:/www.tensorflow.org/extend/architecture。 
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务 端 是 一 个 运行 了 tftrain. Server 实例 的 进程 ， 是 TensorFlow 执行 任务 的 集群 (cluster) 
的 一 部 分 ， 并 有 主 节 点 服务 (Master Service， 也 叫 主 节点 ) 和 工作 节点 服务 (Worker service, 
也 叫 工作 节点 ) 之 分 。 运 行 中 由 一 个 主 节点 进程 和 数 个 工作 节点 进程 组 成 ， 主 节点 进程 和 工作 
节点 进程 之 间 通 过 接口 通信 。 单 机 多 卡 和 分 布 式 都 是 这 种 结构 ， 因 此 只 需要 更 改 它们 之 间 通 信 
的 接口 就 可 以 实现 单机 多 卡 和 分 布 式 的 切换 。 
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3. 主 节 点 服务 





主 节点 服务 实现 了 tensorflow::Session 接口 ， 通 过 RPC 服务 程序 来 远程 连接 工作 节点 ， 与 工作 节 
点 的 服务 进程 中 的 工作 任务 进行 通信 。 在 TensorFlow 服务 端 中 , 一 般 是 task_index 为 0 的 作业 Gob). 









































4. 工作 节点 服务 








工作 节点 服务 实现 了 worker service.proto 接口 ， 使 用 本 地 设备 对 部 分 图 进行 计算 。 在 
TensorFlow 服务 端 中 ， 所 有 工作 节点 都 包含 工作 节点 的 服务 逻辑 。 每 个 工作 节点 负责 管理 一 个 
或 者 多 个 设备 。 工 作 节 点 也 可 以 是 本 地 不 同 端口 的 不 同 进程 ， 或 者 多 台 服 务 器 上 的 多 个 进程 。 
14.6 节 中 会 用 本 地 不 同 端口 的 两 个 进程 来 模拟 两 个 工作 节点 的 部 署 。 

在 运行 TensorFlow 的 分 布 式 时 ， 我 们 首先 需要 创建 一 个 TensorFlow 集群 (cluster) 对 象 。 

集群 是 TensorFlow 分 布 式 执行 的 任务 集 ， 由 一 个 或 者 多 个 作业 (Gob) 组 成 ， 而 每 个 作业 又 由 
一 个 或 多 个 具有 相同 目的 的 任务 〈task) 组 成 。 每 个 任务 一 般 由 一 个 工作 进程 来 执行 。 由 此 可 
知 ， 作 业 是 任务 的 集合 ， 集 群 是 作业 的 集合 。 

在 分 布 式 机 器 学 习 框 架 ( 包 括 TensorFlow 在 内 ) 中 , 一般 把 作业 划分 为 参数 作业 (parameter job) 
和 工作 节点 作业 (worker job )。 参 数 作业 运行 的 服务 器 称 为 参数 服务 器 (parameter server, PS), 

负责 管理 参数 的 存储 和 更 新 ;工作 节点 作业 负责 管理 无 状态 且 主 要 从 事 计 算 的 任务 ， 如 运行 操作 。 
当 模 型 越 来 越 大 , 模型 的 参数 越 来 越 多 ,多 到 一 台 机 器 的 性 能 不 够 完成 对 模型 参数 的 更 新 的 时 
修 ， 就 需要 把 参数 分 开放 到 不 同 的 机 器 去 存储 和 更 新 。 参 数 服务 器 可 以 是 由 多 台 机 器 组 成 的 集群 ， 
这 就 有 点 儿 类 似 于 分 布 式 存储 架构 , 涉及 数据 的 同步 、 一 致 性 等 , 参数 可 以 存储 为 刍 值 (key-value) 
的 形式 ， 或 者 理解 为 一 个 分 布 式 的 键 值 内 存 数据 库 ， 然 后 再 加 上 一 些 参数 更 新 的 操作 。” 

e, 参数 的 存储 和 更 新 是 在 参数 作业 中 进行 的 , 模型 的 计算 是 在 工作 节点 作业 中 进行 的 。 
TensorFlow 的 分 布 式 实现 作业 间 的 数据 传输 ， 也 就 是 参数 作业 到 工作 节点 作业 的 前 向 传播 ， 以 





































































































































































































































































































































































































O 关于 参数 服务 器 的 更 多 编程 框架 参见 李 沐 的 文章 《Parameter Server for Distributed Machine Learning) : http://www. 
cs.cmu.edu/~muli/file/ps.pdf。 
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及 工作 节点 作业 到 参数 作业 的 反 向 传播 。 


任务 相当 于 是 一 个 特定 的 TensorFlow 服务 器 的 独立 进程 , 该 进程 属于 特定 的 作业 并 在 作业 
P 拥 有 对 应 的 序号 。 在 大 多 数 情况 下 ， 一 个 任务 对 应 一 个 工作 节点 。 


图 14-2 展示 了 我 对 集群 内 各 种 关系 的 理解 。 
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图 14-2 





14.2.2 ”客户 端 、 主 节点 和 工作 节点 的 交互 过 程 
任务 整体 执行 流程 如 图 14-3 所 示 ， 左 边 是 单机 多 卡 的 交互 ， 右 边 是 分 布 式 的 交互 。 


运行 














工作 节点 进程 1 工作 节点 进程 2 | 工作 节点 进程 3 

















© 本 图 出 自 论文 《TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems) : https://arxiv.org/ 
abs/1603.04467v1. 
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14.3 分布 式 模式 


知道 了 分 布 式 的 架构 以 及 客户 端 、 主 节点 和 工作 节点 的 关系 ， 我 们 来 看 看 分 布 式 的 具体 运 
行 模式 是 什么 。 在 训练 一 个 模型 的 过 程 中 ， 有 哪些 部 分 可 以 分 开 ， 放 在 不 同 的 机 器 上 运行 呢 ? 
这 里 就 介绍 两 种 模式 : 数据 并 行 和 模型 并 行 。 









































14.3.1 ”数据 并 行 
数据 并 行 的 原理 很 简单 , 如 图 14-4 所 示 。 其 中 CPU 主要 负责 梯度 平均 和 参数 更 新 , 而 GPU1 


和 GPU2 主要 负责 训练 模型 副本 (model replica)。 这 里 称 作 “模型 副本 ”是 因为 它们 都 是 基于 
训练 样 例 的 子 集训 练 得 到 的 ， 模 型 之 间 具 有 一 定 的 独立 性 。 

























































































有 具体 的 训练 步骤 如 下 。 

(1) Æ GPUI 和 GPU2 上 分 别 定 义 模 型 网 络 结构 。 

(2) 对 于 单个 GPU,， 分别 从 数据 管道 读 取 不 同 的 数据 块 ， 然 后 进行 前 向 传播 ， 计算 出 损失 ， 
再 计算 当前 变量 的 梯度 。 

(3) 把 所 有 GPU 输出 的 梯度 数据 转移 到 CPU 上 ， 先 进行 梯度 求 平均 操作 ， 然 后 进行 模型 
变量 的 更 新 。 

(D 重复 第 1 步 至 第 3 步 ， 直 到 模型 变量 收敛 为 止 。 

数据 并 行 的 目的 主要 是 提高 SGD 的 效率 。 例 如 ， 假 如 每 次 SGD 的 mini-batch 大 小 是 1000 个 





















































© 本 图 出 上 https://www.tensorflow.org/tutorials/deep cnn. 
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样本 ， 那 么 如 果 切 成 10 份 ， 每 份 100 个 ， 然 后 将 模型 复制 10 份 ， 就 可 以 在 10 个 模型 上 同时 计算 。 
Hæ, AA 10 个 模型 的 计算 速度 可 能 是 不 一 致 的 ， 有 的 快 有 的 慢 ， 那 么 在 CPU 更 新 变量 
的 时 候 ， 是 应 该 等 待 这 一 mini-batch 全 部 计算 完成 ， 然 后 求 和 取 平 均 来 更 新 呢 ， 还 是 让 一 部 分 
先 计算 完 的 就 先 更 新 ， 后 计算 完 的 将 前 面 的 覆盖 呢 ? 这 就 引出 了 同步 更 新 和 腊 步 更 新 的 问题 。 
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14.3.2 ”同步 更 新 和 异步 更 新 


分 布 式 随机 梯度 下 降 法 是 指 ,模型 参数 可 以 分 布 式 地 存储 在 不 同 的 参数 服务 器 上 ， 工 作 节点 可 
以 并 行 地 训练 数据 并 且 能 够 和 参数 服务 器 通信 获取 模型 参数 。 更 新 参数 也 分 为 同步 和 异步 两 种 方 
式 ， 即 为 异步 随机 梯度 下 降 法 (Async-SGD ) 和 同步 随机 梯度 下 降 法 (Sync-SGD)， 如 图 14-5 所 示 。 






























同步 数据 并 行 











异步 数据 并 行 

















同步 随机 梯度 下 降 法 《也 称 同步 更 新 、 同 步 训练 ) 的 含义 是 在 进行 训练 时 ， 每 个 节点 上 的 
工作 任务 需要 读 入 共享 参数 ， 执 行 并 行 的 梯度 计算 ， 同 步 需 要 等 待 所 有 工作 节点 把 局 部 的 梯度 
算 好 ， 然 后 将 所 有 共享 参数 进行 合并 、 累 加 ， 再 一 次 性 更 新 到 模型 的 参数 ， 下 一 个 批 次 中 ， 所 
有 工作 节点 拿 到 模型 更 新 后 的 参数 再 进行 训练 。 

这 种 方案 的 优势 是 ， 每 个 训练 批 次 都 考虑 了 所 有 工作 节点 的 训练 情况 ， 损 失 下 降 比 较 稳 定 ; 劣势 
是 ， 性 能 瓶颈 在 于 最 慢 的 工作 节点 上 。 在 异 构 设 备 中 ， 工 作 节 点 性 能 常常 不 同 ， 这 个 劣势 非常 明显 。 

























































































© 本 图 出 自 论文 《TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems) : https://arxiv.org/ 
abs/1603.04467v1. 
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异步 随机 梯度 下 降 法 《也 称 异 步 更 新 、 异 步 训练 ) 的 含义 是 每 个 工作 节点 上 的 任务 独立 计 
算 局 部 梯度 ， 并 异步 更 新 到 模型 的 参数 中 ， 不 需要 执行 协调 和 等 竺 操作 。 


这 种 























方案 的 优势 优势 是 ， 性 能 不 存在 瓶颈 ;劣势 是 ， 每 个 工作 节点 计算 的 梯度 值 发 送 回 参数 服 














务 器 会 有 参数 更 新 的 冲突 ， 一 定 程度 上 会 影响 算法 的 收敛 速度 ， 在 损失 下 降 过 程 中 抖动 较 大 。 














同步 更 新 和 异步 更 新 如 何 选择 ? 有 没有 优化 方式 呢 ? 
同步 更 新 和 异步 更 新 的 实现 区 别 主 要 在 于 更 新 参数 服务 器 的 参数 的 策略 。 在 数据 量 小 ， 各 












































个 节点 的 计算 能 力 比 较 均 衡 的 情况 下 ， 推 荐 使 用 同步 模式 ， 在 数据 量 很 大 ， 各 个 机 器 的 计算 性 

































































能 参差 不 齐 的 情况 下 ， 推 荐 使 用 异步 模式 。 有 具体 使 用 哪 一 种 还 可 以 看 实验 结果 ， 一 般 数 据 量 足 





够 大 的 情况 下 异步 更 新 效果 会 更 好 。 






































为 了 解决 有 些 工作 节点 计算 比较 慢 的 问题 ， 可 以 使 用 多 一 些 工作 节点 。 例 如 ， 让 工作 节点 
总 数 变 为 ntnX5%，n 为 集群 工作 节点 数 。 异 步 更 新 可 以 设 定 为 在 接受 到 n 个 工作 节点 的 参数 
后 ， 可 以 直接 更 新 参数 服务 器 上 的 模型 参数 ， 进 入 下 一 个 批 次 的 模型 训练 。 计 算 比 较 慢 的 节点 
上 训练 出 来 的 参数 直接 被 丢弃 。 我 们 称 这 种 方法 为 带 备 份 的 Sync-SGD (Sync-SGD with backup). 

在 Jianmin Chen, Xinghao Pan、Rajat Monga、Samy Bengio 和 Rafal Jozefowicz 的 论文 
(Revisiting Distributed Synchronous SGD》 中 ， 作 者 曾 基于 ImageNet 数据 集 用 TensorFlow 的 
Async-SGD、Sync-SGD、 带 备份 的 Sync-SGD 模式 做 了 1000 种 图 片 的 分 类 训练 。 实 验 环 境 分 
别 为 50、100 和 200 个 工作 节点 ， 运 行 在 NVIDIA K40 GPU 上 。 图 14-6 展示 的 是 50、100 和 
200 个 工作 节点 ， 用 上 述 3 种 模型 的 训练 结果 。 
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(D 本 图 出 自 














论文 《Revisiting Distributed Synchronous SGD) : https://arxiv.org/abs/1604.00981。 
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可 以 看 出 增加 两 个 备份 节点 ， 带 备份 的 Sync-SGD 模型 可 以 快速 提升 模型 训练 速度 。 从 图 
14-6 所 示 的 50 个 工作 节点 的 情况 可 以 看 出 ，Sync-SGD 模型 比 Async-SGD 模型 大 概 提 升 了 2596 
的 训练 速度 ， 以 及 0.48% 的 准确 度 。 

而 且 随 着 工作 节点 数目 的 增多 ， 训 练 时 间 会 极 大 缩短 。 如 图 14-7 所 示 ， 采 用 Async-SGD 























































































































算法 ,分 别 用 25、50、100 和 200 个 节点 ，200 个 节点 的 训练 时 间 是 采用 25 个 节点 的 训练 时 间 
的 1/8， 说 明 分 布 式 的 TensorFlow 能 够 提升 大 规模 训练 的 效率 。 
工作 节点 数 测试 准确 率 (%) 时 间 (小 时 》 
25 78.94 184.9 
50 78.83 97.67 
100 78.44 51.97 
200 78.04 22.94 
图 14-7 
理解 了 参数 更 新 的 机 制 ， 还 有 很 重要 的 一 步 ， 训 练 时 数据 是 如 何 分 发 到 工作 节点 上 的 呢 ? 


























同步 更 新 与 异步 更 新 有 图 内 模式 Cin-graph pattern). 和 图 间 模 式 (between-graph pattern) 两 
种 模式 ， 是 独立 于 图 内 〈in-graph) 和 图 间 (between-graph) 的 概念 ， 也 就 是 说 无 论 是 图 内 还 是 
图 间 都 可 以 实现 同步 更 新 和 异步 更 新 ， 只 是 实现 代码 上 会 有 些 差异 。 

图 内 复制 (in-graph replication〉 是 指 所 有 操作 (operation〉 都 在 同一 个 图 中 ， 用 一 个 客户 

端 来 生成 图 ， 然 后 把 所 有 操作 分 配 到 集群 的 所 有 参数 服务 器 和 工作 节点 上 。 图 内 复制 和 单机 多 
卡 有 点 类 似 ， 是 扩展 到 了 多 机 多 卡 ， 但 是 数据 分 发 还 是 在 客户 端 一 个 节点 上 。 这 种 方式 的 优势 
是 计算 节点 只 需要 调用 join0 函 数 等 竺 任务 ,客户 端 随时 提交 数据 就 可 以 训练 。 但 劣势 是 训练 数 
据 的 分 发 在 一 个 节点 上 ， 要 分 发 给 不 同 的 工作 节点 ， 严 重 影响 并 发 训练 速度 。 因 此 ， 在 数据 量 
很 大 的 情况 下 ， 不 推荐 使 用 这 种 模式 。 
AAA] Cbetween-graph replication) 与 图 内 复制 对 应 ， 是 指 每 一 个 工作 节点 创建 一 个 图 ， 
训练 的 参数 保存 在 参数 服务 器 ， 数 据 不 用 分 发 ， 各 个 工作 节点 独立 计算 ， 计算 完成 后 ， 把 要 更 
新 的 参数 告诉 参数 服务 器 ， 参 数 服务 器 来 更 新 参数 。 这 种 模式 的 优势 是 不 需要 数据 分 发 ， 各 个 
工作 节点 都 会 创建 图 和 读 取 数据 进行 训练 。 劣 势 是 工作 节点 既是 图 的 创建 者 又 是 计算 任务 的 执 
行者 ， 如 果 某 个 工作 节点 宕 机 会 影响 集群 的 工作 。 这 种 模式 是 在 数据 量 在 TB 级 的 时 候 ， 并 发 
性 能 很 高 。 因 此 ， 大 数据 相关 的 深度 学 习 还 是 推荐 使 用 图 间 模 式 。 在 14.6 节 的 对 MNIST 进行 
分 布 式 训练 的 例子 中 ， 我 们 就 采用 了 这 种 方式 。 
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14.3.3 ”模型 并 行 
还 可 以 对 模型 进行 切 分 ， 让 模型 的 不 同 部 分 执行 在 不 同 的 设备 上 ， 这 样 一 个 批 次 样本 可 以 

















© 本 图 参考 Jianmin Chen、Xinghao Pan 和 Rajat Monga 等 人 的 论文 《Revisiting Distributed Synchronous SGD》: https:// 
arxiv.org/abs/1604.00981 . 
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在 不 同 的 设备 上 同时 执行 。 为 了 充分 利用 同一 台 设 备 的 计算 能 力 ，TensorFlow 会 尽量 让 相 邻 的 
计算 在 同一 台 设 备 上 完成 来 节省 网 络 开 销 。 如 图 14-8 所 示 ， 这 是 一 个 LSTM 模型 ， 展 示 一 个 
批 次 的 样本 在 设备 1、 设 备 2、 设 备 3 同时 训练 ， 分 别 执行 模型 的 不 同 部 分 ， 分 别 训练 出 Pr 
P2. P3 三 个 不 同 的 参数 。 









































客户 端 


FEFFE 
FREI 





设备 3 



























本 节 的 模型 并 行 和 数据 并 行 ， 说 明 在 TensorFlow 中 ， 计 算 可 以 分 离 ， 参 数 也 可 以 分 离 。 可 
以 在 每 个 设备 上 分 配 计算 节点 ， 然 后 让 其 对 应 的 参数 也 在 该 设备 上 ， 让 计算 和 参数 放 在 一 起 。 
































14.4 SEE API? 


创建 集群 的 方法 是 为 每 一 个 任务 〈task) 启动 一 个 服务 〈 工 作 节点 服务 或 者 主 节 点 服务 )。 
这 些 任务 可 以 分 布 在 不 同 的 机 器 上 ， 也 可 以 同一 台 机 器 启动 多 个 任务 ， 使 用 不 同 的 GPU 来 运 
行 。 每 个 任务 会 完成 以 下 工作 。 

(1) 创建 一 个 芋 train.ClusterSpec， 用 于 对 集群 中 的 所 有 任务 进行 描述 ， 该 描述 内 容 对 所 有 
任务 应 该 是 相同 的 。 

(2) 创建 一 个 妊 train.Server， 用 于 创建 一 个 服务 ， 并 运行 相应 作业 上 的 计算 任务 。 

TensorFlow 的 分 布 式 开发 API 主要 包括 以 下 几 个 。 


(1) tf.train.ClusterSpec({"ps": ps hosts, "worker": worker hosts))。 创 建 TensorFlow 集群 描述 


































































































信息 ， 其 中 ps 和 worker 为 作业 名 称 ，ps_hosts 和 worker hosts 为 该 作业 的 任务 所 在 节点 的 地 址 
信息 。 表 14-1 中 个 给 出 了 两 个 示例 ，tftrain.ClusterSpec 的 传 入 参数 是 作业 和 任务 之 间 的 关系 映 














C 本 图 出 自 Martin Abadi, Ashish Agarwal 和 Paul Barham 等 人 的 论文 《TensorFlow: Large-Scale Machine Learning on 
Heterogeneous Distributed Systems) : https://arxiv.org/abs/1603.04467v1 . 








© 本 节 内 容 部 分 参考 https://www.tensorflow.org/deploy/distributed。 
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射 ， 该 映射 关系 中 的 任务 是 通过 IP. 地 址 和 端口 号 表示 的 。 








表 14-1 


tf.train.ClusterSpec 结构 


可 用 任务 





tf.train.ClusterSpec( ("local": 
["localhost:2222", "localhost:2223"]1) 


/job:local/task:0 
/job:local/task:1 





tf.train.ClusterSpec(1 
"worker": [ 
"worker0.example.com:2222", 
"workerl.example.com:2222", 
"worker2.example.com:2222" 
] 
"ps": [ 
"ps0.example.com:2222", 
"psl.example.com:2222" 


D) 








/job:worker/task:0 
/job:worker/task:1 
/job:worker/task:2 
/job:ps/task:0 
/job:ps/task:1 





(2) tftrain.Server(cluster, job name, task_index)。 创 建 一 个 服务 ( 主 节点 服务 或 者 工作 节点 
服务 )， 用 于 运行 相应 作业 上 的 计算 任务 ， 运 行 的 任务 在 task index 指定 的 机 器 上 启动 。 例 如 ， 
在 本 地 的 2222 和 2223 两 个 端口 上 配置 不 同 的 任务 : 









































# 在 任务 0: 


cluster = tf.train.ClusterSpec(("local": 














{4% 1: 


cluster = tf.train.ClusterSpec(("local": 

















["l1ocalhost:2222", "localhost:2223"]]) 


server - tf.train.Server(cluster, job name-"local", task index-0) 


["1ocalhost:2222", "localhost:2223"]]) 


server = tf.train.Server(cluster, job name-"local", task index-1) 









































就 需要 使 用 自动 化 的 管理 节点 、 监 控 节 点 的 工具 ， 
解 TensorFlow 在 Kubernetes 上 的 部 署 和 应 用 )。 





但 是 , 这 种 做 法 还 需要 手动 配置 节点 , 无 法 实现 动态 的 扩容 或 缩 容 。 当 集群 规模 比较 大 时 ， 




















如 集群 管理 














H Kubernetes (第 17 章 中 会 讲 





(3) 给 device(device_name_or_function)。 设 定 在 指定 的 设备 上 执行 张 量 运 算 ， 指 定 代码 运 


行 在 CPU 或 GPU 上 。 示 例如 下 : 


# 指 定 在 task0 所 在 的 机 器 上 执行 Tensor 的 操作 运算 
with tf.device("/job:ps/task:0"): 
weights 1 = tf.Variable(...) 
biases 1 - tf.Variable(...) 








14.5 AI 


下 面 





练 代码 框架 


























展示 将 如 何 创 建 一 个 TensorFlow 服务 器 集群 ,以 及 如 何在 该 集群 中 分 布 式 计算 一 个 数 



































# 第 1 步 : 命令 行 参数 解析 ， 获 取 集 群 的 信 ， 
# 以 及 当前 节点 的 
tf.app.flags.DEF 





|ps hosts 和 





US 



































NE string("ps hosts", 





图 。TensorFlow 分 布 式 集群 的 所 有 节点 执行 的 代码 都 是 相同 的 。 分 布 式 任务 代码 具有 
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回 定 














worker hosts, 


色 信 息 job name fI task index, fü: 
"", "Comma-separated list of hostname:port pairs") 


tf.app.flags.DEFINE string("worker hosts", "", "Comma-separated list of hostname:port 
pairs") 

tf.app.flags.DEFINE string("job name", "", "One of 'ps', 'worker'") 

tf.app.flags.DEFINE integer("task index", 0, "Index of task within the job") 


FLAGS 
ps hosts 


tf.app.flags.FLAGS 
FLAGS.ps hosts.split(",") 
worker hosts FLAGS.worker hosts( 


"o" 
, 


) 








# 第 2 步 : 创建 当前 


cluster 





任务 节点 的 服务 器 
tf.train.ClusterSpec(("ps": 








server = tf.train.Server(cluster, job name-FLAGS 





第 


EA 








vi 








# 第 3 步 : 如 果 当 前 节点 是 参数 服务 器 ， 则 调 
if FLAGS.job name == "ps": 











server.join() 











第 4 步 : 构建 要 训练 的 模型 ， 构 建 计算 图 


elif FLAGS.job name -- "worker": 





build tensorflow graph model 











创建 一 个 supervisor 来 监督 训练 过 程 


SV 
负责 会 话 初始 化 和 从 检查 点 恢复 模型 

sess Sv.prepare or wait for session(server. 
始 循环 ， 直 到 supervisor 停止 

while not sv.should stop() 


训练 模型 


现在 我 们 就 根据 本 节 所 讲 的 TensorFlow 分 布 式 训 


supervisor 









































ps hosts, 


server.join () 无 休止 等 待 ， 如 果 是 了 


tf.train.Supervisor(is chief-(FLAGS.task index -- 


"worker": worker hosts]) 
.job name, task index-FLAGS.task index) 


p 
4 





[ 作 节 点 ， 则 执行 





第 5 步 : 创建 tf.train.Supervisor 来 管理 模型 的 训练 过 程 


), logdir="/tmp/train logs") 


target) 














练 代码 框架 ， 来 看 看 如 何 对 MNIST 进行 











rh 





分 布 式 训练 。 对 于 上 述 代码 框架 , 我 们 要 编写 的 主要 有 
以 及 每 一 步 执行 训练 的 代码 。 














14.6 ”分 布 式 最 佳 实践 


本 节 采 用 图 14-9 所 示 的 结构 对 MNIST 数据 集 进 


p. 











两 部 分 : 构建 TensorFlow 图 模型 的 代码 ， 











J 分布 式 训练 。 我 们 在 本 机 上 


于 设 3 个 端 


© 本 节 代 码 参 考 tensorflow-1.1.0/tensorflow/tools/dist test/python/mnist replica.py。 


228 


口 作 为 分 布 式 工 作 节 点 的 部 署 ，2222 3 


H 
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mO 为 参数 服务 器 ，2223 端 











口 为 工作 节点 0，2224 端口 
































为 工作 节点 1。 参 数 服务 器 执行 参数 更 新 任务 ， 工 作 节 点 0 和 工作 节点 1 执行 图 模型 训练 计算 
FA. 
参数 服务 器 
/job:ps/task:0 
localhost:2222 
工作 节点 工作 节点 
/job:worker/task:0 /job:worker/task:1 
localhost:2223 localhost:2224 
图 14-9 
我 们 先 来 运行 代码 ， 看 看 结果 什么 样 。 开 局 3 个 终端 ， 分 别 运行 : 
python mnist replica.py --job name-"ps" --task indqex=0 
python mnist replica.py --job name-"worker" --task index-0 
python mnist replica.py --job name-"worker" --task index-1 



































在 开启 参数 服务 器 (ps) 的 终端 里 ， 结 果 如 下 : 
Job name = Ps 
task index = 0 


I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] 
Cache for job ps => (0 => localnost:2222] 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] 
Cache for job worker -> (0 -> localhost:2223, 1 -> localhost:2224] 

I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:217] Started server 
with target: grpc://localhost:2222 


Initialize GrpcChannel 


Initialize GrpcChannel 




















然后 该 进程 挂 起 ， 等 待 工作 节点 服务 中 的 进程 开始 训练 。 

我 们 一 共 进 行 200 次 迭代 ， 工 作 节点 1 执行 了 169 次 迭代 ， 计 算 输出 如 下 : 
job name = worker 

task index = 0 


I tensorflow/core/distributed runtime/rpc/grpc channel .cc:200] 
Cache for job ps => (0 => localhost:2222] 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] 
Cache for job worker -> (0 -> localhost:2223, 1 -> localhost:2224] 
I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:217] 


Initialize GrpcChannel 


Initialize GrpcChannel 


Started server 
with target: grpc://localhost:2223 





Worker 0: Initializing session... 
I tensorflow/core/distributed runtime/master session.cc:994] 


0d791a02977e5701 with config: 


Start master session 
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device filters: "/job:ps" 

device filters: "/job:worker/task:0" 

allow soft placement: true 

Worker 0: Session initialization complete. 

Training begins @ 1483516057.489495 
483516057.518419: Worker 0: training step done (global 
483516057.541053: Worker 0: training step 2 done (global 
483516057.569677: Worker 0: training step 3 done (global 
483516057.584578: Worker 0: training step 4 done (global 
483516057.646970: Worker 0: training step 5 done (global 
pr 中 间 略 去 
483516059.286596: Worker 0: training step 166 done (globa 
483516059.291600: Worker 0: training step 167 done (globa 
483516059.297347: Worker 0: training step 168 done (globa 
483516059.303738: Worker 0: training step 169 done (globa 

Training ends @ 1483516059.303808 

Training elapsed time: 1.814313 s 

After 200 training step(s), validation cross entropy = 123 

工作 节点 2 执行 了 34 次 迭代 ， 结 果 如 下 : 

job name - worker 

task index = 1 


tensorfl 


Cache for 
tensorfl 


Cache for 


with target: 
Worker 1: 








92e671f£3dd1ffd05 with config: 
device filters: "/job:ps" 

device filters: 
allow soft placement: true 


Worker 1: 























Training begins @ 1483516058. 
483516058.832164: Worker 
483516058.844464: Worker 
483516058.860988: Worker 
483516058.873543: Worker 
483516058.884758: Worker 

eee 中 间 略 去 
483516059.152332: Worker 
483516059.167606: Worker 
483516059.177215: Worker 
483516059.301384: Worker 
483516059.309557: Worker 

Training ends @ 1483516059.30 


grpc://localhost: 
Waiting for session to be initialized... 
tensorflow/core/distributed runtime/master session.cc:994] Start master session 


2224 


"/job:worker/task:1" 


803010 

training 
training 
training 
training 


training 


training 
training 


training 





training 
training 
9638 


job worker -» (0 -» localhost:2223, 
tensorflow/core/distributed runtime/rpc/grpc server lib.cc:217] 


Session initialization complete. 


step 
step 
step 
step 
step 


step 
step 
step 
step 
step 
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step: 0) 

step: 1) 

step: 2) 

step: 3) 

step: 4) 

l step: 197) 

l step: 198) 

l step: 199) 

l step: 200) 


5.56 


ow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize GrpcChannel 


job ps -> (0 -> localhost:2222] 
ow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize GrpcChannel 


1 -> localhost:2224] 


done 
done 
done 
done 


on 0 N 二 


done 


done 
done 
done 
done 
done 


(global 
(global 
(global 
(global 
(global 


(global 
(global 
(global 
(global 
(global 


Started server 


T2 
123 
126 
128 
130 


step: 
step: 
step: 
step: 
step: 


176 
178 
180 
182 
202 


step: 
step: 
step: 
step: 
step: 
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Training elapsed time: 0.506628 s 
After 200 training step(s), validation cross entropy = 1235.56 


下 面 我 们 一 起 来 看 一 下 如 何 用 代码 实现 在 MNIST 上 进行 分 布 式 训练 。 
首先 ， 定 义 一 些 常量 ， 用 于 构建 数据 流 图 : 






































flags = tf.app.flags 
flags.DEFINE string("data dir", "/tmp/mnist-data", "Directory for storing mnist data") 
# 只 下 载 数据 ， 不 做 其 他 操作 


flags.DEFINE boolean("download only", False, 

















"Only perform downloading of data; Do not proceed to " 
"session preparation, model definition or training") 

# task index M 0 开始 。0 代表 用 来 初始 化 变量 的 第 一 个 任务 

flags.DEFINE integer("task index", None, 
"Worker task index, should be >= 0. task index-0 is " 





























"the master worker task the performs the variable " 
"initialization ") 

* 每 台 机 器 的 GPU 个 数 ， 这 里 在 前 述 Mac 笔记 本 上 运行 ， 因 此 为 0 
flags.DEFINE integer ("num gpus", 0, 























"Total number of gpus for each machine." 
"If you don't use GPU, please set it to 'O'") 
* 在 同步 训练 模式 下 ， 设 置 收集 的 工作 节点 的 数量 。 默 认 就 是 工作 节点 的 总 数 


flags.DEFINE integer("replicas to aggregate", None, 














"Number of replicas to aggregate before parameter update" 
"is applied (For sync replicas mode only; default: " 
"num workers)") 
flags.DEFINE integer("hidden units", 100, 
"Number of units in the hidden layer of the NN") 
# 训练 的 次 数 
flags.DEFINE integer("train steps", 200, 
"Number of (global) training steps to perform") 





























flags.DEFINE integer("batch size", 100, "Training batch size") 
flags.DEFINE float("learning rate", 0.01, "Learning rate") 

# 使 用 同步 训练 /异步 训练 

flags.DEFINE boolean("sync replicas", False, 


" 


"Use the sync replicas (synchronized replicas) mode, 
"wherein the parameter updates from workers are aggregated " 
"before applied to avoid stale gradients") 
* 如 果 服 务 器 已 经 存在 ， 采 用 gRPC 协议 通信 ; 如 果 不 存在 ， 采 用 进程 间 通 信 
flags.DEFINE boolean( 
"existing servers", False, "Whether servers already exists. If True, 


















































" 


"will use the worker hosts via their GRPC URLs (one client process " 
"per worker host). Otherwise, will create an in-process TensorFlow " 
"server.") 

# 参数 服务 器 主机 

flags.DEFINE string("ps hosts","localhost:2222", 

"Comma-separated list of hostname:port pairs") 








# 工作 节点 主机 
flags.DEFINE string ("worker hosts", "localhost:2223,localhost:2224", 
"Comma-separated list of hostname:port pairs") 


# 本 作业 是 工作 节点 还 是 参数 服务 器 
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flags.DEFINE string("job name", None,"job name: worker or ps") 
FLAGS = flags.FLAGS 
IMAGE PIXELS - 28 


下 面 我 们 就 从 命令 行 参数 中 读 取 参数 服务 器 和 工作 节点 的 主机 信息 ， 用 tf.train.ClusterSpec 
来 创建 TensorFlow 的 集 





























35 D 
d 






































# 读 取 集群 的 描述 信息 
ps spec = FLAGS.ps hosts.split(",") 





worker spec - FLAGS.worker hosts.split(",") 

















# 创建 TensorFlow 集群 描述 对 象 
cluster = tf.train.ClusterSpec(( 
"pet ps spec, 
"worker": worker_spec}) 


为 本 地 执行 的 任务 创建 TensorFlow 的 Server 对 象 。 











if not FLAGS.existing servers: 
# 创建 本 地 Sever 对 象 ， 从 tf .train.Server 这 个 定义 开始 ， 每 个 节点 开始 不 同 
# 根据 执行 的 命令 的 参数 《作业 名 字 ) 不 同 ， 决 定 了 这 个 任务 是 哪个 任务 
# 如 果 作业 名 字 是 ps， 进程 就 加 入 这 里 ， 作 为 参数 更 新 的 服务 ， 等 待 其 他 工 
+ 如 果 作 业 名 字 是 worker， 就 执行 后 面 的 计算 任务 

server = tf.train.Server(cluster, job name-FLAGS.job name, 
task index-FLAGS.task index) 
* 如 果 是 参数 服务 器 ， 直 接 启动 即 可 。 这 时 , 进程 就 会 阻塞 在 这 里 
# 下 面 的 tf.train.replica device sette 代码 会 将 参数 指定 给 ps_server 保管 
if FLAGS.job name == "ps": 



































































































































server.join() 


下 HI 需要 处 理工 作 节 点 人 























# 找 出 worker 的 主 节点 ， 即 task index 为 0 的 点 
is chief = (FLAGS.task index == 0) 
+ 如 果 使 用 gpu 
if FLAGS.num gpus > 0: 
if FLAGS.num gpus < num workers: 























raise ValueError("number of gpus is less than number of workers") 


o 


gpu = (FLAGS.task index $ FLAGS.num gpus) 

+ 分 配 worker 到 指定 的 gpu 上 运行 

worker device = "/job:worker/task:$d/gpu:$d" $ (FLAGS.task index, gpu) 
* 如 果 使 用 cpu: 
elif FLAGS.num gpus == 

# 把 cpu 分 配给 worker 

cpu = 0 

worker device = "/job:worker/task:$d/cpu:$d" % (FLAGS.task index, cpu) 


我 们 使 用 t£.train.replica device setter 将 涉及 变量 的 操作 分 配 到 参数 服务 器 上 ， 



































使 用 CPU; 








T 
H 
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将 涉及 非 变 量 的 操作 分 配 到 工作 节点 上 ， 使 用 上 一 步 worker_ device 的 值 。 
# 在 这 个 with 语句 之 下 定义 的 参数 ， 会 自动 分 配 到 参数 服务 器 上 去 定义 
如 果 有 多 个 参数 服务 器 ， 就 轮流 循环 分 配 
with tf.device( 
tf.train.replica device setter( 























worker device-worker device, 
ps device-z"/job:ps/cpu:0", 
cluster-cluster)): 

# 定义 全 局 步 长 ， 默 认 值 为 0 


global step = tf.Variable(0, name-"global step", trainable-False) 

















也 
i 








* 定义 隐藏 层 参数 变量 ， 这 上 
hid w = tf.Variable( 
tf.truncated normal( 
[IMAGE PIXELS * IMAGE PIXELS, FLAGS.hidden units], 
stddev-1.0 / IMAGE PIXELS), 
name-"hid w") 
hid b = tf.Variable(tf.zeros([FLAGS.hidden units]), name-"hid b") 














是 全 连接 神经 网 络 隐 藏 层 











# 定义 Softmax 回归 层 的 参数 变量 
sm w = tf.Variable( 
tf.truncated normal( 
[FLAGS.hidden units, 10], 
stddev-1.0 / math.sqrt(FLAGS.hidden units)), 
name-"sm w") 
sm b = tf.Variable(tf.zeros([10]), name-"sm b") 


# 定义 模型 输入 数据 变量 
x = tf.placeholder(tf.float32, [None, IMAGE PIXELS * IMAGE PIXELS]) 
y = tf.placeholder(tf.float32, [None, 10] 





# 构建 隐藏 层 
hid lin = tf.nn.xw plus b(x, hid w, hid b) 
hid = tf.nn.relu(hid lin) 





# 构建 损失 函数 和 优化 器 
y = tf.nn.softmax(tf.nn.xw plus b(hid, sm w, sm b)) 
cross entropy = -tf.reduce sum(y * tf.log(tf.clip by value(y, le-10, 1.0))) 





























* 异步 训练 模式 ， 自己 计算 完 梯 度 就 去 更 新 参数 ， 不 同 副本 之 间 不 会 去 协调 进度 
opt = tf.train.AdamOptimizer(FLAGS.learning rate) 























# 同步 训练 模式 
if FLAGS.sync replicas: 
if FLAGS.replicas to aggregate is None: 
replicas to aggregate - num workers 
else: 
replicas to aggregate - FLAGS.replicas to aggregate 
* fJ] SyncReplicasOptimizer 作为 优化 器 ， 并 且 是 在 图 间 复 制 情况 下 
# 在 图 内 复制 情况 下 将 所 有 的 梯度 平均 就 可 以 了 
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opt = tf.train.SyncReplicasOptimizer( 
opt, 
replicas to aggregate-replicas to aggregate, 
total num replicas-num workers, 
name-"mnist sync replicas") 


train step - opt.minimize(cross entropy, global step-global step) 


if FLAGS.sync replicas: 
local init op = opt.local step init op 
if is chief: 
# 所 有 的 进行 计算 的 工作 节点 里 的 一 个 主 工 作 节 点 〈chief) 
# 这 个 主 节点 负责 初始 化 参数 、 模 型 的 保存 、 概 要 的 保存 等 


local init op = opt.chief init op 






































ready for local init op = opt.ready for local init op 


# 同步 训练 模式 所 需 的 初始 令 牌 和 主队 列 
chief queue runner = opt.get chief queue runner () 
sync init op = opt.get init tokens op() 


init op - tf.global variables initializer() 
train dir - tempfile.mkdtemp() 


if FLAGS.sync replicas: 
创建 一 个 监管 程序 ， 用 于 统计 训练 模型 过 程 中 的 信息 
logdir 是 保存 和 加 载 模 型 的 路 径 
启动 就 会 去 这 个 1ogqi 目录 看 是 否 有 检查 点 文件 ， 有 的 话 就 自动 加 载 
没有 就 用 init opb 指定 的 初始 化 参数 
主 工作 节点 (chief) 负责 模型 参数 初始 化 等 工作 
在 这 个 过 程 中 ， 其 他 工作 节点 等 待 主 节点 完成 初始 化 工作 ， 初 始 化 完成 后 ， 一 起 开始 训练 数据 
global step 的 值 是 所 有 计算 节点 共享 的 
在 执行 损失 函数 最 小 值 的 时 候 会 自动 加 1， 通 过 global_step 能 知道 所 有 计算 节点 一 共计 算 了 多 少 步 
Sv = tf.train.Supervisor( 

is chief-is chief, 


















































































































































logdir-train dir, 
init op-init op, 
local init op-local init op, 
ready for local init op-ready for local init op, 
recovery wait secs=1, 
global step-global step) 
else: 
sv = tf.train.Supervisor( 
is chief-is chief, 
logdir-train dir, 
init op-init op, 
recovery wait secs-1, 
global step-global step) 
# 在 创建 会 话 时 ， 设 置 属性 allow_soft placement 为 True 
# 所 有 的 操作 会 默认 使 用 其 被 指定 的 设备 ， 如 GPU 












































CPU 设备 
FLAGS.task index]) 


动 使 


$ 














"/job:worker/task:$d" 
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# 如 果 该 操作 函数 没有 GPU 实现 时 ， 会 
= tf.ConfigProto( 
allow soft placement-True, 
evice placement-False, 
Hl task index 为 0 的 节点 将 会 初始 化 会 话 


9- 
$ 


sess config 
FLAGS.task index) 


log d 
device filters-["/job:ps", 
被 初始 化 后 进行 计算 


' 9 
5 




















* d 让 点 (chief), 
其 余 的 工作 节点 会 等 待 会 话 
print("Worker $d: Waiting for session to be initialized..." 


ETHS 





Initializing session..." 























# 
if is chief: 
print("Worker $d: 


F 始 训练 
config=sess config) 


| 主 节点 世 准 备 好 后 ， 才 玫 


config=sess config) 





dar g 
5s 5 


else: 
FLAGS.task_index) 
"grpc://" + worker spec[FLAGS.task index] 
server grpc url) 











if FLAGS.existing servers: 
print("Using existing server at: 

执行 TensorFlow 图 计算 

数 初始 化 完成 日 























server grpc url 
FLAGS.task index) 


Sv.prepare or wait for session(server grpc url, 


9- 
$ 





# 创建 TensorFlow 会 话 对 象 ， 
# prepare or wait for session 
Sv.prepare or wait for session(server.target, 


sess = 
else: 
sess = 
print ("Worker $d: Session initialization complete." 
if FLAGS.sync_replicas and is_chief: 
sess.run(sync init op) 
Sv.start queue runners(sess, 


[chief queue runner]) 


$ time begin) 


time.time() 


* 执行 分 布 式 模型 训练 


time begin = 
print("Training begins @ $f" 
mnist.train.next batch(FLAGS.batch size) 
feed dict-train feed) 


a 
$ 


local step 


while True: 
batch ys 
(x: batch xs, 


= 0 
# 读 入 MNIST 的 训练 数据 ， 默 认 每 批 次 为 100 张 图 片 
y : batch ys] 
global step], 
$d)" 


batch xs, 
(global step: 


train feed 
sess.run([train step, 


_ Step = 

local step += 1 

now = time.time() 

print("$f: Worker $d: training step $d done 
(now, FLAGS.task index, local step, step)) 

if step »- FLAGS.train steps: 


break 
= time.time() 


time end 
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o 


print ("Training ends @ $f" $ time end) 
training time = time end - time begin 
print("Training elapsed time: $f s" $ training time) 





# BOX MNIST Sub. VUEI SU 
val feed = (x: mnist.validation.images, y : mnist.validation.labels] 








val xent = sess.run(cross entropy, feed dict-val feed) 


print("After $d training step(s), validation cross entropy = $g" $ 
(FLAGS.train steps, val xent)) 


14.7 小 结 

















本 章 主 要 介绍 了 TensorFlow 的 分 布 式 原理 、 分 布 式 架构 、 分 布 式 模式 等 知识 ， 以 及 
TensorFlow 实现 分 布 式 所 需要 的 API， 整 理 了 TensorFlow 分 布 式 训 练 代码 的 框架 结构 ， 最 后 以 
MNIST 为 例 讲解 了 实现 分 布 式 的 方法 。 
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TensorFlow 线性 代数 编译 框架 XLA 








XLA (Accelerated Linear Algebra) 是 用 于 线性 代数 领域 的 专用 编译 器 (domain-specific 
compiler )， 用 于 优化 TensorFlow 计算 。XLA 通过 即时 (just-in-time，JIT) 编译 或 提前 
(ahead-of-time，AOT) 编译 来 进行 实验 ， 尤其 有 助 于 面向 人 硬件 加 速 的 开发 者 。XLA 框架 目前 还 
是 处 于 试验 阶段 的 。 

本 章 我 们 主要 讲述 XLA 的 优势 、 工 作 原理 和 XLA 的 一 些 应 用 。” 










































































15.1 XLA 的 优势 








XLA 是 一 个 线性 代数 的 领域 专用 编译 器 ， 能 在 执行 速度 、 内 存 的 使 用 、 对 自 定义 操作 的 依 
赖 、 移 动 端的 内 存 占用 和 可 移植 性 等 方面 优化 了 TensorFlow 的 计算 。 
e 提高 执行 速度 。 通 过 编译 子 图 来 减少 生命 周期 较 短 的 操作 的 执行 时 间 ， 通 过 融合 管道 
化 的 操作 来 减少 内 存 占用 。 
e 提高 内 存 的 使 用 。 分 析 和 规划 内 存 的 使 用 需求 ， 消 除 许多 中 间 结 果 的 缓存 。 
e 减少 对 自 定义 操作 的 依赖 。 通 过 提高 自动 化 融合 底层 操作 (low-level op) 的 性 能 ， 达 
到 原先 需要 手动 融合 自 定 义 操作 〈custom op). 的 效果 。 
e 减少 移动 端的 内 存 占用 移动 端的 应 用 详 见 第 19 章 )。 一 是 通过 提前 CAOTO 编译 子 
图 来 减少 TensorFlow 的 执行 时 间 ， 二 是 通过 共享 头 文件 对 《如 xxx.o 和 xxx.h) 被 其 他 
程序 直接 链接 。 这 两 个 操作 能 够 使 移动 端 预测 的 内 存 占 用 减少 几 个 数量 级 。 
e 提高 可 移植 性 。 可 以 用 XLA 为 新 的 硬件 设备 开发 一 个 新 的 后 端 ， 使 TensorFlow 不 需要 
更 改 很 多 代码 就 可 以 用 在 新 的 硬件 设备 上 。 




























































































































































































































































































© 本 章 内 容 主要 参考 TensorFlow 官方 网 站 : https://www.tensorflow.org/versions/master/experimental/xla/。 
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15.2 XLA 的 工作 原理 























学 过 C 语言 的 人 可 能 知道 ， LLVM 是 一 个 编译 器 的 框架 系统 ， 用 C++ 编写 而 成 ， 用 于 优化 
以 任意 编程 语言 编写 的 程序 的 编译 时 间 (compile time)、 链 接 时 间 (link time)、 运 行 时 间 (run 
time) 以 及 空闲 时 间 (idle time)。” 

在 基于 LLVM 的 编译 器 中 ， 前 端 负责 解析 、 验 证 和 诊断 输入 代码 中 的 错误 ， 然 后 将 解析 的 代 
码 转 换 为 LLVM 中 间 表 示 Cintermediate representation, IR). iZ IR 通过 一 系列 分 析 和 优化 过 程 来 
改进 代码 ， 然 后 发 送 到 代码 生成 器 中 ， 以 产生 本 地 机 器 代码 。 如 图 15-1 所 示 ， 这 是 一 个 非常 直接 
的 三 相 设计 的 LLVM 实现 。 设 计 中 最 重要 的 是 LLVM IR， 在 编译 器 中 IR 被 用 来 表示 代码 。 


LLVM 
X86 后 端 
"e LLVM 
LLVM 优化 器 PowerPC 后 端 
ARM EI ina 
LLVM IR LLVM IR 


氏 15-1 




























































Clang C/C—/ObjC 
前 端 










X86 





Fortran Ilvm-gcc 前 端 PowerPC 









Haskell GHC 前 端 






2 




















XLA 的 输入 语言 称 为 HLO IR，XLA 使 用 在 HLO 中 定义 的 图 形 ， 并 将 它们 编译 成 各 种 体 
系 结构 的 机 器 指令 。 图 15-2 展示 的 是 XLA 中 的 编译 过 程 。 






































目标 相关 的 优化 和 分 析 


目标 特定 的 代码 生成 























GD 参考 百度 百科 “LLVM7”: http:/baike.baidu.comylink?url=0c67Vs4dGqctTSoQ9xpF2yWxmUxaj8SN4UhPAtq4t3xtai22h9- 
L3IY qSuabj9FYyJyfXvrqbllf80Sg19s . 


© 本 图 参考 http//www.aosabook.org/en/llvm.html.. 


© ”本 图 参考 TensorFlow 官方 网 站 : https://www.tensorflow.org/versions/master/experimental/xla/。 





238 »» 第 三 篇 。 提高 篇 














如 图 15-2 所 示 ，XLA 首先 进行 目标 无 关 的 优化 和 分 析 ， 如 公共 子 表达 式 消除 (common 
subexpression elimination，CSE)、 目 标 无 关 的 操作 融合 (如 将 多 个 操作 融合 成 一 个 操作 〉 Rs 
行 时 内 存 的 缓冲 区 分 析 等 。 

接着 ，XLA 将 HLO 计算 发 送 到 后 端 。 后 端 执行 进一步 的 HLO 级 目标 相关 的 优化 和 分 析 。 例 
如 ，XLA GPU 后 端 可 以 执行 对 GPU 编程 模型 有 益 的 操作 融合 ， 并 且 确 定 如 何 将 计算 划分 成 流 。 

下 一 步 是 生成 目标 特定 的 代码 。XLA EMAY CPU 和 GPU 后 端 使 用 LLVM 进行 中 间 表 示 、 
优化 及 代码 生成 。 这 些 后 端 用 LLVM IR 来 表示 XLA HLO 计算 。 

XLA 目前 支持 在 x86-64 FU NVIDIA GPU 上 进行 IT 编译 ， 以 及 在 x86-64 和 ARM 上 进行 
AOT 编译 。 因 此 ，AOT 编译 方式 更 适合 移动 端 和 岁入 式 的 深度 学 习 使 用 。 下 面 我 们 就 以 _JIT 
编译 为 例 进行 说 明 。 












































































































































































































































15.3 JIT 编译 方式 


TensorFlow 的 XLA JIT 编译 器 通过 XLA 编译 和 运行 TensorFlow 计算 图 的 一 部 分 。 与 标准 
TensorFlow 实现 相 比 ，XLA 可 以 将 多 个 操作 (内 核 ) 融合 到 少量 编译 内 核 中 ， 融 合 操作 符 可 以 
减少 存储 器 带宽 需求 并 提高 性 能 。 

通过 XLA 运行 TensorFlow 计算 有 两 种 方法 ， 一 是 打开 CPU 或 GPU 设备 上 的 JIT 编译 ， 
二 是 将 操作 符 放 在 XLA_CPU 或 XLA_GPU 设备 上 。 






























































15.3.1 打开 JIT 编译 


打开 JIT 编译 可 以 有 两 种 方式 。 下 面 是 在 会 话 上 打开 ， 这 种 方式 会 把 所 有 可 能 的 操作 符 编 
程 成 XLA 计算 。 用 法 示例 如 下 ; 
































config = tf.ConfigProto() 

config.graph options.optimizer options.global jit level - tf.OptimizerOptions.ON 1 

sess = tf.Session(config-config) 

另 一 种 方式 是 为 一 个 或 多 个 操作 符 手 动 打开 HT 编译 。 这 是 通过 使 用 属性 _XlaCompile = 
true 标记 要 编译 的 操作 符 来 完成 的 。 用 法 示例 如 下 : 















































jit scope = tf.contrib.compiler.jit.experimental jit scope 
x = tf.placeholder (np.float32) 
with jit scope(): 

y = tf.add(x, x) 


15.3.2 ”将 操作 符 放 在 XLA 设备 上 


前 有 效 的 设备 是 XLA_CPU 或 XLA_GPU， 示 例如 下 : 
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with tf.device("/job:localhost/replica:0/task:0/device:XLA GPU:0"): 
output = tf.add(inputl, input2) 


15.4 JIT 编译 在 MNIST 上 的 实现 

















下 面 我 们 就 用 MNIST 的 softmax 版 本 来 尝试 使 用 XLA 和 不 使 用 XLA 的 差异 。 代 码 位 于 


tensorflow-1.1.0/tensorflow/examples/tutorials/mnist/mnist softmax xla.py ' 


不 使 用 XLA 来 运行 时 ， 如 下 : 














o 


python mnist softmax xla.py --xla-false 





运行 完成 后 生成 时 间 线 文件 timeline.ctfjson, 使 用 Chrome 跟踪 事件 分 析 器 〈 在 浏览 器 中 访 
问 chrome://tracing)， 打 开 该 时 间 线 文件 ， 呈 现 的 时 间 线 如 图 15-3 所 示 。 




















o Tms 
~ [jobiocalhost/replica:0/task0/cpu:0 m (pid 1) l ; É i à 
it V E II UU DUET A TT LI 
1 D oon [lii iL. EEUU] 
d Em: | 
B | es 
图 15-3 








图 15-3 中 最 左 侧 一 列 列 出 了 本 机 的 4 个 GPU。 可 以 清晰 地 看 到 图 中 MatMul 操作 符 ， 跨 越 
4 个 CPU 的 时 间 消 耗 情 况 。 


让 我 们 使 用 XLA 来 训练 模型 ， 如 下 : 


























TF XLA FLAGS---xla generate hlo graph-.* python mnist softmax xla.py 


运行 完成 后 ， 得 到 的 时 间 线 图 像 如 图 15-4 所 示 。 














[o m; ，， joetms, , , [o2ms, , , josms, , 


A 04me |05me |06me o, 
v /job:localhost/replica:0/task:O/cpu:O Compute (pid 1) 








1 | 











图 15-4 








我 们 看 看 如 何 调用 JIT 编译 , 关键 的 训练 代码 如 下 。 下 面 讲解 了 如 何 开启 XLA 的 JIT 编译 ， 
以 及 如 何 将 训练 追踪 写 入 时 间 线 文件 








o 





config = tf.ConfigProto() 
jit level = 0 
if FLAGS.xla: 

# 开启 XLA 的 JIT 编译 


jit level = tf.OptimizerOptions.ON 1 








config.graph options.optimizer options.global jit level - jit level 
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run metadata = tf.RunMetadata|() 
sess = tf.Session(config-config) 
tf.global variables initializer().run(session-sess) 
* 训练 
train loops - 1000 
for i in range(train loops): 
batch xs, batch ys - mnist.train.next batch(100) 























# 在 最 后 一 次 循环 中 ， 创 建 时 间 线 文件 ， 可 以 用 chrome://tracing/ 打 开 和 分 析 


if i == train loops - 1: 


uu 




















sess.run(train step, 
feed dict-(x: batch xs, y : batch ys], 
options-tf.RunOptions (trace level-tf.RunOptions.FULL TRACE), 
run metadata-run metadata) 

trace - timeline.Timeline(step stats-run metadata.step stats) 

trace file - open('xlatimeline.ctf.json', 'w') 

trace file.write(trace.generate chrome trace format()) 
else: 


sess.run(train step, feed_dict={x: batch xs, y : batch_ys}) 


前 XLA 框架 还 处 于 试验 阶段 , AOT 主要 应 用 场景 是 一 些 内 存 较 小 的 嵌入 式 设 备 、 手 机 、 
树 春 派 等 ， 对 于 性 能 要 求 较 高 的 读者 可 以 做 进一步 探索 和 发 现 。 












































15.5 JA 






























































本 节 主 要 讲述 了 TensorFlow 的 线性 代数 编译 框架 XLA 的 工作 原理 ，JIT 编译 和 AOT 编译 
的 适用 范围 , 重点 讲解 了 JIT 编译 方式 的 两 种 实现 方法 。 最 后 用 MNIST 数据 集 展现 了 如 何 使 用 
JIT 编译 。XLA 是 TensorFlow 1.0 版 本 加 入 的 新 特性 ， 还 有 竺 完善。 本章 重点 面向 开发 中 对 性 
能 要 求 较 高 的 开发 者 。 
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TensorFlow Debugger 
































TensorFlow Debugger (tfdbg) 是 TensorFlow 的 专用 调试 器 。 它 使 用 断 点 和 计算 机 图 形 化 来 
展现 实时 数据 流 ， 提供 了 运行 TensorFlow 图 形 的 内 部 结构 和 状态 的 可 视 化 。 这 种 可 视 化 非常 有 
助 于 在 训练 和 推理 期 间 调 试 各 种 类 型 的 模型 错误 。 

本 章 会 通过 讲解 如 何 调试 TensorFlow 模型 开发 中 一 种 常见 的 错误 类 型 一 一 非 数 字 (nan) 

和 无 限 值 GnD 导致 的 训练 失败 ， 来 展示 tfdbg 命令 行 界面 (command line interface, CLI) 的 
功能 。 而 这 对 一 般 调 试 器 (如 C++ 的 gdb 或 者 Python 的 pdb) 来 说 ， 是 很 难 调试 的 。 

此 外 ，TensorFlow 这 种 使 用 符号 式 编 程 的 语言 本 身 就 以 难 调试 而 闻名 , 没有 经 验 的 开发 者 常常 
很 难 直 观 地 感受 数据 流 图 在 做 什么 ， 因 此 ， 出 现 了 问题 就 难以 定位 ， 更 谈 不 上 说 高 级 的 优化 任务 。 
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16.1 Debugger 的 使 用 示例 


本 节 我 们 以 一 个 错误 运行 的 MNIST 训练 为 例 ， 看 看 如 何 通过 TensorFlow Debugger 来 找到 
出 错 的 地 方 ， 并 改正 。 源 代码 位 于 tensorflow-1.1.0/tensorflow/python/debug/examples/debug - 
mnist.py。 我 们 先 不 加 调试 器 ， 直 接 执 行 ， 如 下 : 

















python -m tensorflow.python.debug.examples.debug mnist 


也 可 以 进入 tensorflow-1.1.0/tensorflow/python/debug/examples 执行 : 


python debug mnist.py 


经 过 10 次 训练 ， 结 果 如 下 : 





Accuracy at step 0: 0.1113 
Accuracy at step 1: 0.3712 
Accuracy at step 2: 0.098 
Accuracy at step 3: 0.098 





QD 本 章 内 容 主 要 参考 https;//www.tensorflow.org/programmers guide/debugger. 
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Accuracy at 
Accuracy at 
Accuracy at 
Accuracy at 
Accuracy at 
Accuracy at 


可 以 看 出 ， TB 


























可 以 在 每 次 调用 run0 之 前 和 之 后 调 | 


高 篇 


step 
step 
step 
step 
step 
step 


E 确 率 在 第 一 次 训 


‘© 0 ~ 0 5 


.098 
.098 
.098 
.098 
.098 
.098 


c 0 10 O O0 D 











练 时 有 所 上 升 ， 后 面 一 直 保 持 在 较 低 的 水 平 。 
下 面 我 们 就 用 TensorFlow Debugger 来 尝试 调试 。 仪 需要 在 原 有 的 文件 中 加 上 下 面 3 行 代码 ， 就 







































































] 基 于 终端 的 用 户 界面 《UI)， 来 控制 执行 和 检查 图 的 内 部 状态 : 














from tensorflow.python import debug as tf debug 


sess = tf debug.LocalCL 
sess.add tensor filter( 





DebugWrapperSession (sess) 
"has inf or nan", tf debug.has inf or nan) 


在 这 个 例子 中 , 我 们 为 张 量 值 注 册 了 一 个 过 滤器 has inf or nan, 它 能 够 判断 出 图 的 任何 中 
间 张 量 中 是 否 有 nan 或 inf ff. 


现在 我 们 就 开局 调试 模式 〈debug)， 找 出 准确 率 无 法 提高 的 原因 。 首 先 执行 : 

















python -m tensorflow.python.debug.examples.debug mnist -debug 


也 可 以 通过 如 下 方式 执行 


python debug mnist.py --debug-True 














这 时 就 进入 了 Debugger 的 界 


[-- run-start: rum $i: 





3 fete 


这 就 是 我 们 说 的 运行 














H| > 如 





Taccuracy/accuracy/Maon:8): 2 faeds -= 一- 


图 16-1 所 示 。 














开始 的 UI Crun-start UI)。 在 tfdbg> 后 面 可 以 输入 交互 式 的 命令 ， 如 














run) 〈 或 者 缩写 T)， 


= 
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就 可 以 进入 运行 结束 后 UI Gun-end UI)， 如 图 16-2 所 示 。 





~ run-end: run 
list te 
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在 图 








#1: 1 fetch 
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ble:0 


n/biases/Variable, 


idden/weights/Var I] 


prediction/ArgMax. 1 
reod:0 


idden/Wx_plus_b/MatMul 
hidden/Wx. plus. b/add:Q 
hidden/Relu:à 
Mx plus. b/MatMul:Q 
x/Wx. plus, b/ad. 


， 可 以 看 到 ， 数 值 并 没有 有 异 


tfdbg» run -t 10 


可 以 使 用 下 
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图 16-2 


^E 
rm 





。 然 后 ， 可 以 通过 














j 的 命令 直到 找 出 在 图 形 中 的 第 一 个 nan 或 者 inf 值 (这 类 似 于 调试 中 的 打 断 点 ); 


tfdbg» run -f has inf or nan 


结果 如 





图 16-3 所 示 。 
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第 一 行 的 灰 底 字 (电脑 屏幕 中 显示 为 红字 )， 表示 tfdbg 在 调用 run0 后 立即 停止 ， 生 成 了 通 
定 过 滤器 has inf or nan 的 中 间 张 量 。 如 图 16-3 所 示 ， 在 第 4 次 调用 run0 期 间 ， 有 36 个 


KEUS inf 或 者 nan 值 ， 首 次 出 现在 cross_entropy/Log:0。 
单 击 图 中 的 cross_entropy/Log:0， 并 且 单 击 下 划 线 的 node_ info 菜单 项 ， 仔 细 看 一 下 这 个 节 
























































点 的 输入 张 量 ， 并 且 看 看 里 面 是 否 有 0 值 。 方 法 如 下 : 


以 进一步 参考 tfdbg 的 命令 行 接口 教程 ”。 

















tfdbg> pt softmax/Softmax:0 
tfdbg» /0\-000 


果然 是 有 0 值 ， 如 图 16-4 所 示 。 





























图 16-4 








H ni 命令 的 -t 标志 进行 妃 溯 ， 方 法 如 下 : 





ni -t cross entropy/Log 





追溯 结果 如 图 16-5 所 示 ， 可 以 看 到 debug mnist.py 文件 的 第 102 行 是 罪魁 祸首 。 











raceback of node construction: 
D: debug mnist.py 
Line: 
Function: «module» 
Text: "tf.app.run(mainemain, argvs[sys.argv[0]] + unparsed)" 


1: /usr/local/lib/python2.7/site-packages/tensorflow/python/platform/app.py 
Line: 44 
Function: run 
Text: " sys.exit(mainC sys.argv[:1] + flags passthrough))" 


: debug mnist.py 

Line: 102 

Function: main 

Text: "diff —y- * tf;logCy)* 


: /usr/local/lib/python2.7/site-packages/tensorflow/python/ops/gen. math. ops . py 
Line: 1345 

Function: log 

Text: 








于 是 ， 我 们 对 tflog 的 输入 值 进 行 裁剪 ， 将 这 个 问题 解决 : 
diff = y * tf.log(tf.clip by value(y, 1e-8, 1.0) 


再 次 运行 后 ， 准 确 率 不 再 低 值 徘徊 ， 恢 复 正 常 。 
TensorFlow Debugger 是 一 个 非常 好 用 的 调试 工具 ， 还 有 很 多 交互 式 命令 ， 感 兴趣 的 读者 可 
































(D https://www.tensorflow.org/programmers guide/debugger 
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16.2 ”远程 调试 方法 


上 面 的 使 用 示例 是 在 本 地 的 调试 方法 。 但 通常 情况 下 ， 数 据 是 在 远程 机 器 上 训练 ， 更 一 般 
的 情况 是 ， 深 度 学 习 越 来 越 倾向 于 在 云端 训练 ， 本 地 不 能 访问 训练 过 程 中 的 数据 。 那 么 ， 这 种 
情况 下 如 何 进行 模型 的 调试 呢 ? 

这 时 采用 tfdbg 的 offline_analyzer。 设 置 一 个 本 地 和 远程 机 器 都 能 访问 的 共享 目录 ， 如 
/home/somebody/tfdbg_dumps_1。 然 后 ， 通 过 debug utils.watch graph 函数 设置 运行 时 的 参数 选 
项 。 在 运行 session.run() 时 就 会 将 中 间 张 量 和 运行 时 的 图 像 转 储 到 共享 目录 中 。 方 法 如 下 : 


from tensorflow.python.debug import debug utils 



























































































































































# 此 处 代码 如 : 构建 图 ， 生 成 session 对 象 等 。 已 省 略 


run options = tf.RunOptions() 





debug utils.watch graph( 
run options, 
session.graph, 
debug urls-["file:///home/somebody/tfdbg dumps 1"]) # 共享 目录 的 位 置 


# 这 里 如 果 用 多 个 客户 端 执行 run， 应 该 使 用 多 个 不 同 的 共享 目录 

session.run(fetches, feed dict-feeds, options-run options) 

这 样 , 在 本 地 终端 上 就 可 以 使 用 tfdbg 的 offline analyzer 来 加 载 和 检查 共享 目录 中 的 数据 。 
方法 如 下 : 


python -m tensorflow.python.debug.cli.offline analyzer \ 
--dump dir-/home/somebody/tfdbg dumps 1 


另 一 种 更 简单 和 灵活 的 方法 是 使 用 会 话 的 包装 器 函数 DumpingDebugWrapperSession 来 在 
共享 目录 中 产生 训练 中 的 累积 文件 。 直 接 这 样 使 用 : 


from tensorflow.python.debug import debug utils 






















































































































































































sess = tf debug.DumpingDebugWrapperSession( 
sess, "/home/somebody/tfdbg dumps 1/", watch fn=my watch fn) 





16.3 小 结 














本 章 主要 介绍 了 TensorFlow Debugger， 这 是 一 个 非常 有 用 的 调试 工具 。 在 训练 神经 网 络 的 
过 程 中 ， 开 发 者 常常 会 因为 各 种 原因 ， 写 错 某 个 参数 或 者 变量 的 值 ， 虽 然 这 时 候 训 练 过程 不 会 
报错 ， 但 是 会 导致 损失 值 很 长 时 间 都 不 下 降 ， 模 型 收敛 很 慢 。 本 章 还 介绍 了 远程 调试 的 方法 。 
以 往 面 对 这 种 情况 , 开发 人 员 需 要 费 很 大 力气 去 查找 原因 。 使 用 TensorFlow Debugger 可 以 在 早 
期 的 一 两 次 迭代 中 ， 观 察 张 量 的 正确 与 否 ， 给 调试 带 来 极 大 帮助 。Debugger 是 TensorFlow 1.0 
新 加 入 的 特性 ， 目 前 还 在 不 断 完善 ， 并 且 有 望 和 TensorBoard 结合 ， 更 大 限度 地 简化 调试 过 程 。 
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TensorFlow 和 Kubernetes 结合 











在 AlphaGo 中 ， 每 个 实验 使 用 1 000 个 和 节点， 每 个 节点 有 4 个 GPU， 也 就 是 使 用 了 4 000 
个 GPU。 在 Siri 中 ， 每 个 实验 2 个 节点 ， 也 就 是 使 用 8 个 GPU。 可 想 而 知 ，AI 研究 的 进行 
依赖 于 海量 数据 的 计算 ， 同 时 也 离 不 开 高 性 能 计算 资源 的 支持 。 

在 第 14 章 中 我 们 已 经 讲解 了 TensorFlow 的 分 布 式 原 理 以 及 部 署 方式 。 随 着 海量 数据 的 出 
现 和 模型 参数 的 增多 ， 我 们 必然 需要 更 大 的 集群 来 运行 模型 ， 这 样 最 大 的 好 处 在 于 把 原本 可 能 
需要 周 级 别 的 训练 时 间 缩 短 到 天 级 别 甚至 小 时 级 别 。 未 来 的 模型 训练 面 对 的 都 是 上 亿 数 据 和 上 
亿 参 数 ， 稳 定 的 计算 能 力 和 管理 便捷 的 集群 环境 至 关 重 要 。Kubernetes 是 目前 应 用 最 广泛 的 容 
器 集群 管理 工具 之 一 ， 它 可 以 为 对 分 布 式 TensorFlow 的 监控 、 调 度 等 生命 周期 管理 提供 所 需 的 
保障 。 



























































































































































































































































17.4 为 什么 需要 Kubernetes 


有 过 大 数据 集群 开发 经 验 的 人 都 知道 ， 尽管 TensorFlow 有 自己 的 分 布 式 方案 , 但 仍 需 要 手 
把 每 台 机 器 运行 起 来 ， 当 机 器 量 是 儿 台 或 十 儿 台 的 时 候 ， 可 能 压力 不 大 ， 但 当 机 器 量 达到 上 
侣 时， 就 需要 一 样 东 西 来 进行 管理 和 调度 ， 进 行 自动 化 部 吐 、 调 度 、 扩 容 和 缩 容 处 理 ， 甚 至 
一 些 任务 意外 退出 后 ， 还 需要 控制 自动 重启 。Kubernetes 就 提供 了 这 样 的 解决 方案 。 

Kubernetes 官方 的 解释 是 ，Kubernetes 是 一 个 用 于 容器 集群 的 自动 化 部 署 、 扩 容 以 及 运 维 
的 开源 平台 ， 它 可 以 提供 任务 调度 、 监 控 、 失 败 重启 等 功能 。 

另外 ,因为 TensorFlow 和 Kubernetes 都 是 谷歌 公司 的 开源 产品 ， 所 以 非常 容易 在 它们 之 间 
搭 起 桥梁 ， 并 且 谷歌 云 平台 也 在 推出 平台 化 的 解决 方案 。 
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(D https://kubernetes.io/ 
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下 1 











看 我 们 就 来 介绍 在 Kubernetes ' 
Kubernetes 环境 ， 接 着 在 搭建 好 的 环境 中 


第 17 章 TensorFlow 和 Kubernetes 


























17.2.1 部 署 及 运行 


拟 机 
用 的 














后 放 


我 们 需要 先 安装 Kubernetes。 这 里 是 用 Mac RRA, HeRR 





























分 布 式 TensorFlow 在 Kubernetes 中 的 运 
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运行 分 布 式 TensorFlow 的 方法 。 本 节 首 先 学 习 如 何 部 署 
运行 分 布 式 TensorFlow， 并 用 MNIST 来 训练 。 


也 大 同 小 异 。 


我 们 用 Minikube 来 创建 本 地 Kubernetes 集群 。 安 装 Minikube 需要 预先 安装 VirtualBox WE 


， 读 者 可 以 从 官网 ”上 直接 下 载 安 装 ， 注 意 选择 对 应 的 操作 系统 版 本 即 可 。 


版 本 。 


About 
Screenshots 
Downloads 
Documentation 
End-user docs 
Technical docs 
Contribute 
Community 





Welcome to VirtualBox.org! 


VirtualBox is a powerful x86 and AMD64/Intel64 virtualization product for enterprise as well as home use. Not only is 
VirtualBox an extremely feature rich, high performance product for enterprise customers, it is also the only professional 
solution that is freely available as Open Source Software under the terms of the GNU General Public License (GPL) 
version 2. See "About VirtualBox" for an introduction. 


Presently, VirtualBox runs on Windows, Linux, Macintosh, and Solaris hosts and supports a large number of guest 
operating systems including but not limited to Windows (NT 4.0, 2000, XP, Server 2003, Vista, Windows 7, Windows 8, 
Windows 10), DOS/Windows 3.x, Linux (2.4, 2.6, 3.x and 4.x), Solaris and OpenSolaris, OS/2, and OpenBSD. 


VirtualBox is being actively developed with frequent releases and has an ever growing list of features, supported guest 
operating systems and platforms it runs on. VirtualBox is a community effort backed by a dedicated company: everyone 
is encouraged to contribute while Oracle ensures the product always meets professional quality criteria. 





Hot picks: 


* Pre-built virtual machines for developers at “Oracle Tech Network 
* Hyperbox Open-source Virtual Infrastructure Manager -- project site 


- pm 
We're hiring! 











News Flash 


* DO January 17th, 2017 


VirtualBox 5.1.14 released! 
Oracle today released a 5.1 
maintenance release which 
improves stability and fixes 

regressions. See the Changelog 
uj details. 


December 2nd, 2016 
9| 
Looking for a new challenge? 


We're looking for a GUI developer 
(Germany/European Union). 


. BE uy 12th, 2016 
IBox 5.1 released! 


Many enhancements and 
improvements. Read more in the 
announcement. 


More information... 





图 17-1 是 我 选 








Minikube 用 Go 语言 编号， 发布 形式 是 一 个 独立 的 二 进 制 文件 























17-1 




















在 对 应 的 位 置 即 可 。 因 此 安装 Minikube， 只 需要 一 条 命令 





[? 


MARE 


要 下 载 下 来 ， 然 


curl -Lo minikube https://storage.googleapis.com/minikube/releases/v0.14.0/ 


minikube-darwin-amd64 && chmod +x mini 


Kubernetes 提供 了 一 个 客户 端 kubectt， 可 直接 通 





安装 kubectl 的 方法 如 下 : 


kube && sudo mv minikube /usr/local/bin/ 


过 kubectl 以 命令 行 的 方式 与 集群 交互 。 





curl -Lo kubectl http://storage.googleapis.com/kubernetes-release/release/v1.5.1/ 





(D https://www.virtualbox.org/ 
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P» 所 二 局 局 局 


bin/darwin/amd64/kubectl && chmod +x kubectl && sudo mv kubectl /usr/local/bin/ 








下 面 在 Minikube 中 启动 Kubernetes 集群 ， 如 

















D 








17-2 所 示 。 











Starting local Kubernetes cluster... 





Kubectl is now configured to use the cluster. 














图 17-2 
可 以 观察 到 VirtualBox 中 也 启动 了 相应 的 虚拟 机 ， 如 图 17-3 所 示 。 
eoe Oracle VM VirtualBox 管理 器 
c ow v C - 
新 建 (N) — 设置 (S) 显示 (H) 
É beo =E 常规 E 预览 
< 运行 





名 称 : 
操作 系统 : Linux 2.6 / 3.x / 4.x (64- 


内 存 大 小 : 2048 MB 


NET 
启动 顺序 : 光驱 , 光驱 , 硬盘 
硬件 加 速 : VT-x/AMD-V, 8E A, 


minikube 


bit) 








PAE/NX, KVM 半 虚 拟 化 


E 显示 

显存 大 小 : 8MB 
远程 桌面 服务 器 : 已 禁用 
录像 : 已 禁用 
bj 存储 
控制 器 : SATA 


SATA 端口 0: [光驱 ] boot2docker.iso (68.95 MB) 
SATA 端口 1: disk.vmdk (普通 , 19.53 GB) 


os 
主机 音频 驱动 : CoreAudio 
控制 芯片 : ICH AC97 














图 17-3 





我 们 采用 Docker Hub 上 的 最 新 镜像 tensorflow/tensorflow ( 


























"apiVersion": "extensions/vlbetal", 


"kind": "Deployment", 
"metadata": ( 
"name": "tensorflow-ps2" 
), 
"spec": { 
"replicas": 2, 
"template": { 
"metadata": { 
"labels": { 





https://hub.docker.com/r/tensorflow/tensorflow/ 








基于 TensorFlow 的 1.0 版 本 )。 


和 首先， 配置 参数 服务 器 的 部 署 〈deployment) 文件 ， 命 名 为 tps-deploymentjson。 代 码 如 下 : 
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"name": "tensorflow-ps2", 
"role": "ps" 


is 


"spec": f 
"containers": [ 
( 
"name": "ps", 
"image": "tensorflow/tensorflow", 
"ports": [ 


( 
"containerPort": 2222 


} 











配置 参数 服务 器 的 服务 (Service) 文件 ， 命 名 为 从 ps-service.json， 代 码 如 下 : 




















"apiVersion": "v1", 
"kind": "Service", 
"spec": 1 
"ports": [ 
( 
"port"s 22225 
"targetPort": 2222 


] , 
"selector": { 
"name": "tensorflow-ps2" 


Ig 
"metadata": { 
"labels": { 
"name": "tensorflow", 
"role": "service" 
ES 
"name": "tensorflow-ps2-service" 








配置 计算 服务 器 的 部 团 文 件 ， 命 名 为 tf-worker-deploymentjson, ARIA Pb: 




















"apiVersion": "extensions/vlbetal", 
"kind": "Deployment", 
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"metadata": { 
"name": "tensorflow-worker2" 
I3 
"spec": { 
"replicas": 2, 
"template": { 
"metadata": { 
"labels": { 
"name": "tensorflow-worker2", 
"role": "worker" 
} 
Is 
"spec": { 
"containers": [ 
( 
"name": "worker", 
"image": "tensorflow/tensorflow", 
"ports": [ 


( 
"containerPort": 2222 
} 

















配置 计算 服务 器 的 服务 文件 ， 命 名 为 tf-worker-service.json, 














"apiVersion": "v1", 
"kind": "Service", 
"spec": d 

"ports". 下 


( 
"port": 2222, 
"targetPort": 2222 
} 

], 


"selector": { 
"name": "tensorflow-worker2" 
} 
), 
"metadata": { 
"labels": { 
"name": "tensorflow-worker2", 
"role": "service" 


Ls 
"name": "tensorflow-wk2-service" 


代码 如 下 : 
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执行 以 下 命令 : 


kubectl create -f tf-ps-deployment.json 
kubectl create -f tf-ps-service.json 
kubectl create -f tf-worker-deployment.json 
kubectl create -f tf-worker-service.json 


分 别 输出 以 下 结果 : 








deployment "tensorflow-ps2" created 
service " tensorflow-ps2-service" created 
deployment "tensorflow-worker2" created 
Service "tensorflow-wk2-service" created 


稍 等 片刻 ， 运 行 kubectl get pod， 可 以 看 到 参数 服务 器 和 计算 服务 器 全 部 创建 完成 ， 如 
17-4 所 示 。 








pi 


k8s kubectl get pod 
NAME READY STATUS RESTARTS AGE 
hello-minikube-957602326-b0k5z 1/1 Running 13d 
tensorflow-ps2-3073558082-3b08h 1/1 Running 1h 


tensorflow-ps2-3073558082-4x3j2 1/1 Running 1h 
tensorflow-worker2-3070479207-6hvsk 1/1 Running 1h 
tensorflow-worker2-3070479207-k6z8f 1/1 i 1h 


图 17-4 











下 面 我 们 进入 每 个 服务 器 Pod) 中 ， 部 署 好 需要 运行 的 mnist_ replica.py 文件 。 
首先 查看 以 下 2 台 ps_ host 的 IP 地 址 ， 如 图 17-5 所 示 。 
然后 查看 2 台 worker host 的 IP 地址 ， 如 图 17-6 所 示 。 


















































k8s kubectl describe service tensorflow-Wk2-service 
Name: tensorflow-Wwk2-service 
Namespace : default 
Labels: name=tensorflow-worker2 
role-service 
Selector: name=tensorflow-worker2 


k8s kubectl describe service tensorflow-ps2-service 
Name: tensorfLow-ps2-service 
Namespace: default 
Labels: name=tensorflow 
role=service 
Selector: name=tensorflow-ps2 


ClusterIP 

10.0.0.50 

<unset> 2222/TCP 
Endpoints: 172.17.0.16:2222,172.17.0.17:2222 
Session Affinity: None 
No events. 


ClusterIP 
10.0.0.150 
«unset» 2222/TCP 
172.17.0.3:2222,172.17.0.8:2222 
Session Affinity: None 
No events. 











图 17-5 图 17-6 














打开 4 个 终端 ， 分 别 进入 4 个 Pod 当中 ， 命 令 如 下 ; 


kubectl exec -ti tensorflow-ps2-3073558082-3b08h /bin/bash 
kubectl exec -ti tensorflow-ps2-3073558082-4x3j2 /bin/bash 
kubectl exec -ti tensorflow-worker2-3070479207-k6z8f /bin/bash 
kubectl exec -ti tensorflow-worker2-3070479207-6hvsk /bin/bash 
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通过 下 面 的 方式 将 mnist_replica.py 分 别 部 署 到 4 个 Pod 中 ， 如 下 : 


curl https://raw.githubusercontent.com/tensorflow/tensorflow/master/ 
tensorflow/tools/dist test/python/mnist replica.py -o mnist replica.py 


在 参数 服务 器 的 两 个 容器 中 分 别 执行 : 





python mnist replica.py --ps hosts-172.17.0.16:2222,172.17.0.17:2222 --worker 
hosts-172.17.0.3:2222,172.17.0.8:2222 --job name-"ps" --task index-0 


python mnist replica.py --ps hosts-172.17.0.16:2222,172.17.0.17:2222 --worker 
hosts-172.17.0.3:2222,172.17.0.8:2222 --job name-"ps" --task index-1 


在 计算 服务 器 的 两 个 容器 中 分 别 执行 : 





python mnist replica.py --ps hosts-172.17.0.16:2222,172.17.0.17:2222 --worker 
hosts-172.17.0.3:2222,172.17.0.8:2222 --job name-"worker" --task index-0 





python mnist replica.py --ps hosts-172.17.0.16:2222,172.17.0.17:2222 --worker 
hosts-172.17.0.3:2222,172.17.0.8:2222 --job name-"worker" --task index-1 


执行 输出 与 14.6 节 的 输出 类 似 。 一 共 执 行 200 次 迭代 ， 工 作 节 点 1 (172.17.0.3:2222) JA 
行 了 144 次 迭代 ， 如 下 : 








job name = worker 

task index = 0 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannelCache for job ps -> (0 -> localhost:2222] 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize GrpcChannel 
Cache for job worker -> (0 -> localhost:2223, 1 -> localhost:2224] 

I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:217] Started server 
with target: grpc://localhost:2223 

Worker 0: Initializing session... 

I tensorflow/core/distributed runtime/master session.cc:994] Start master session 
04d791a02977e5701 with config: 

device filters: "/job:ps" 

device filters: "/job:worker/task:0" 

allow soft placement: true 


Worker 0: Session initialization complete. 
Training begins @ 1483516057.489495 
483516057.518419: Worker 0: training step done 
483516057.541053: Worker training step 2 done 
483516057.569677: Worker 
483516057.584578: Worker 
483516057.646970: Worker 
essees 中 间 略 去 
483516059.286596: Worker 0: training step 141 done (global step: 197) 
483516059.291600: Worker 0: training step 142 done (global step: 198) 
483516059.297347: Worker 0: training step 143 done (global step: 199) 


(global step: 
(global step: 
training step 3 done (global step: 
training step 4 done (global step: 
training step 5 done (global step: 


C 0 oO E 
心 PN 上 局 
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1483516059.303738: Worker 0: training step 144 done (global step: 200) 
Training ends @ 1483516059.303808 

Training elapsed time: 1.614513 s 

After 200 training step(s), validation cross entropy = 1235.56 


工作 节点 2 (172.17.0.8:2222) 执行 了 56 次 迭代 ， 输 出 如 下 : 


job name = worker 

task index = 1 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize GrpcChannel 
Cache for job ps -> (0 -> localhost:2222] 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize GrpcChannel 
Cache for job worker -> (0 -> localhost:2223, 1 -> localhost:2224] 

I tensorflow/core/distributed runtime/rpc/grpo server lib.cc:217] Started server 
with target: grpc://localhost:2224 

Worker 1: Waiting for session to be initialized... 

I tensorflow/core/distributed runtime/master session.cc:994] Start master session 
92e671f3ddl1ffd05 with config: 

device filters: "/job:ps" 

device filters: "/job:worker/task:1" 

allow soft placement: true 








Worker 1: Session initialization complete. 
raining begins @ 1483516058.803010 
483516058.832164: Worker 1: training step 
483516058.844464: Worker 1: training step 
483516058.860988: Worker 1: training step 
483516058.873543: Worker 1: training step 
483516058.884758: Worker 1: training step 
eesse 中 间 略 去 
483516059.152332: Worker 1: training step 52 done (global step: 176 
483516059.167606: Worker 1: training step 53 done (global step: 178 
483516059.177215: Worker 1: training step 54 done (global step: 180 

( 

( 


m 


done (global step: 121 
done (global step: 123 
done (global step: 126 
done (global step: 128 

( 


done (global step: 130 


O14 0 N aa 





483516059.301384: Worker 1: training step 55 done (global step: 182 
483516059.309557: Worker 1: training step 56 done (global step: 202 
Training ends @ 1483516059.309638 
Training elapsed time: 0.536126 s 
After 200 training step(s), validation cross entropy = 1235.56 


在 这 个 例子 中 ， 更 好 的 方式 是 把 需要 执行 的 源 代码 以 及 训练 数据 和 测试 数据 放 在 持久 卷 
(persistent volume) 中 ， 在 多 个 Pod 间 实 现 共享 ， 从 而 避免 在 每 一 个 Pod 中 分 别 部 署 。 

对 应 TensorFlow 的 GPU 的 Docker 集群 部 署 ， Nvidia 官方 提供 了 nvidia-docker 的 方式 ， 原 
理 主要 是 利用 宿主 机 上 的 GPU 设备 ， 将 它 映射 到 容器 中 。 更 多 与 部 署 相 关 的 内 容 读 者 可 参考 
https://github.conm/NVIDIA/nvidia-docker。 




























































































17.2.0 ”其 他 应 用 
训练 好 模型 之 后 可 以 将 它 打包 制作 成 环境 独立 的 镜像 ， 这 术 
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能 够 极 大 地 方便 测试 人 员 部 
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一 致 的 环境 ， 也 便于 对 不 同 版 本 的 模型 做 标记 、 比 较 不 同 模型 的 准确 率 ， 从 整体 上 降低 测试 、 
部 署 上 线 等 的 工作 复杂 性 ， 有 具有 很 大 的 优势 。 


























17.3 小 结 
































将 Kubernete 与 TensorFlow 结合 ,借助 Kubernetes 提供 的 稳定 计算 环境 ， 对 TensorFlow fi 
群 进 行 便捷 的 管理 , 降低 了 搭建 大 规模 深度 学 习 平台 的 难度 , 这 也 是 社区 非常 推崇 的 部 署 方案 。 
本 章 主 要 讲述 了 用 Kubernetes 管理 TensorFlow 集群 的 方法 ， 以 及 在 Kubernetes 上 部 署 分 布 式 
TensorFlow 的 方式 ， 最 后 采用 MNIST 的 分 布 式 例子 进行 了 实践 。 
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TensorFlowOnSpark 





在 第 14 章 我 们 讲 了 TensorFlow 的 分 布 式 运行 ， 在 第 17 章 又 介绍 了 使 用 Kubemetes 集群 对 
TensorFlow 节点 进行 调度 、 监 控 和 失败 重启 等 功能 。 我 们 知道 ，Hadoop 生态 的 大 数据 系统 一 般 可 以 分 
为 Yarn, HDFS 和 MapReduce 计算 框架 ，TensorFlow 本 身 的 分 布 式 就 相当 于 MapReduce 计算 框架 部 
分 ， 而 Kubernetes 就 相当 于 Yarn 调度 系统 。 本 章 要 讲 的 TensorFlowOnSpark 是 利用 远程 直接 内 存 访问 
(Remote Direct Memory Access, RDMAO 解决 了 存储 功能 和 调度 ， 实 现 了 深度 学 习 和 大 数据 的 融合 。 

TensorFlowOnSpark (TFoS) 是 雅虎 推出 的 开源 项 目 “， 支 持 使 用 Apache Spark 集群 进 和 
布 式 TensorFlow 训练 和 预测 。 其 实 ，TensorFlow 的 程序 并 不 能 直接 作为 Spark 的 程序 运行 ， 
TensorFlowOnSpark 提供 了 一 个 程序 来 进行 桥接 , 本 质 上 是 每 个 Spark Executor 启动 一 个 对 应 的 
TensorFlow 进程 ， 然 后 通过 远程 进程 通信 (RPC) 进行 交互 。 



































































































































18.1 TensorFlowOnSpark 的 架构 



































要 把 一 个 训练 程序 改 到 使 用 Spark 的 集群 上 运行 ， 在 运用 TensorFlowOnSpark 后 ， 就 只 需要 改 非 
量 的 代码 〈 官 方 认为 不 到 10 行 )。TensorFlowOnSpark 通过 下 面 的 步 又 来 管理 Spark 集群 。 
CD 预 留 : 为 在 Executor 上 执行 的 每 个 TensorFlow 进程 保留 一 个 端口 ， 并 启动 数据 消息 的 

监听 器 。 

(2) 启动 : 在 Executor 上 启动 Tensorflow 主 函 数 。 

(3) 数据 获取 : 这 里 提供 了 两 种 不 同 的 模式 来 提取 训练 数据 和 测试 数据 。 

e Readers 和 QueueRunners: 利 用 TensorFlow 的 了 Readers 和 QueueRunners 机 制 直接 从 HDFS 
文件 中 读 取 数据 文件 。Spark 不 涉及 访问 数据 。 

e Feeding: 将 Spark RDD 数据 发 送 到 TensorFlow 节点 ， 随 后 的 数据 将 通过 feed dict 机 于 
ft X TensorFlow 图 中 。 
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(D https://github.com/yahoo/TensorFlowOnSpark 
Q 本 节 内 容 参 考 https://github.com/yahoo/TensorFlowOnSpark。 
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(4) 关闭 : 关闭 Executor 上 的 TensorFlow 计算 节点 和 参数 服务 节点 。 
TensorFlowOnSpark 系统 的 架构 如 图 18-1 所 示 。 
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18-1. 




















TFoS 曾 做 过 一 个 图 像 分 类 的 实验 ， 结 果 非 常 令 人 鼓舞 。 以 同一 准确 度 作为 评判 标准 ， 诊 

































































达到 0.730， 单 计算 节点 工作 需要 46 小 时 ， 双 计算 节点 需要 22.5 小 时 ，4 计算 节点 需要 13 小 
计算 节点 需要 7.5 小 时 ， 如 图 18-2 所 示 。 因 此 ， 实 现 了 接近 模型 训练 的 近 线 性 可 扩展 性 。 
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参考 http://yahoohadoop.tumblr.com/post/157196317141/open-sourcing-tensorflowonspark-distributed-deep. 
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F http://yahoohadoop.tumblr.com/post/157196317141/0open-sourcing-tensorflowonspark-distributed-deep。 
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下 面 我 们 就 以 MNIST 数据 集 为 例 ， 看 看 如 何在 Spark 上 进行 部 署 、 训 练 以 及 预测 。 








18.2 TensorFlowOnSpark 在 MNIST 上 的 实践 






































采用 Standalone 模式 的 Spark 集群 ， 仅 需要 一 台 计 算 机 就 够 ， 下 面 以 此 为 例 看 看 如 何 应 用 
TensorFlowOnSpark 。 

首先 ， 安 装 Spark 和 Hadoop， 这 里 所 用 的 计算 机 的 操作 系统 是 OSX 10.10.5， 并 且 已 经 部 
AH J Java 1.8.0 的 JDK， 从 http://spark.apache.org/downloads.html 下 载 Spark， 这 里 选用 2.1.0 
版 本 , 从 http://hadoop.apache.org/#Download+Hadoop 下 载 Hadoop, 这 里 选用 2.7.3 版 本 。 在 2017 
年 3 月 , 这 个 框架 对 TensorFlow 0.12.1 版 本 的 支持 较 好 , 但 对 TensorFlow 1.0 版 本 尚 有 些 问题 ， 
还 需要 读者 自己 适 配 好 。 

安装 后 ， 修 改 必 要 的 配置 文件 ， 设 置 环境 变量 后 ， 启 动 Hadoop: 














































































































SHADOOP HOME/sbin/start-all.sh 


然后 ， 检 出 TensorFlowOnSpark 源 代码 ， 如 下 : 


git clone --recurse-submodules https://github.com/yahoo/TensorFlowOnSpark.git 
cd TensorFlowOnSpark 

git submodule init 

git submodule update --force 

git submodule foreach --recursive git clean -dfx 


接着 ， 将 源 代码 部 分 打包 ， 供 提交 任务 时 使 用 ， 如 下 : 




















cd TensorFlowOnSpark/src 
zip -r ../tfspark.zip * 


设置 TensorFlowOnSpark 根 目录 的 环境 变量 ， 接 下 来 会 用 到 : 



































cd TensorFlowOnSpark 
export TFoS HOME=$ (pwd) 





接着 ， 启 动 Spark 主 节 点 (master): 


${SPARK HOME}/sbin/start-master.sh 























配置 两 个 工作 节点 (worker) 实例 ， 通 过 master-spark-URL 和 主 节点 连接 : 














export MASTER=spark://$ (hostname) :7077 





OD 本 节 实 践 过程 参 考 https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted standalone. 
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export SPARK WORKER INSTANCES-2 

export CORES PER WORKER-1 

export TOTAL CORES-$(($(CORES PER WORKER) *S(SPARK WORKER INSTANCES])) 
S(SPARK HOME])/sbin/start-slave.sh -c $CORES PER WORKER -m 3G $(MASTER) 


接 下 来 ， 提 交 任 务 ， 将 MNIST 的 zip 文件 转换 为 HDFS 上 的 RDD 数据 集 : 





nr 








$(SPARK HOME) /bin/spark-submit V 


--master S$(MASTER) --conf spark.ui.port-4048 --verbose \ 
S(TFoS HOME)/examples/mnist/mnist data setup.py \ 


--output examples/mnist/csv \ 
--format csv 


运行 完毕 后 ， 可 以 通过 如 下 命令 看 到 处 理 过 的 数据 集 : 


























hadoop fs -ls hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv 
Found 2 items 

drwxr-xr-x - jiaxuan supergroup 0 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/test 
drwxr-xr-x - jiaxuan supergroup 0 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train 


可 以 查看 保存 后 的 图 片 和 标记 向 量 ， 分 别 共 有 10 £9: 
































hadoop fs -ls hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels 


et hn Pr tr A jiaxuan supergroup 0 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/1l 
—*Ww-r--r-- jiaxuan supergroup 204800 2017-03-10 04: 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/1l 
-TWIT jiaxuan supergroup 245760 2017-03-10 04: 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/1l 
—Yw-Y--Y-- jiaxuan supergroup 245760 2017-03-10 04: 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/1l 
-rw-r--r-- jiaxuan supergroup 245760 2017-03-10 04: 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/1l 
-rw-r--r-- jiaxuan supergroup 245760 2017-03-10 04: 





-rw-r--r-- jiaxuan supergroup 245760 2017-03-10 04: 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/1l 
"EWOETCOE-- jiaxuan supergroup 245760 2017-03-10 04: 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/1l 
—Pfwer-cp-- jiaxuan supergroup 245760 2017-03-10 04: 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/1l 





erfW-E-Cef-- jiaxuan supergroup 245760 2017-03-10 04: 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/1l 

















-rw-r--r-- jiaxuan supergroup 229120 2017-03-10 04: 





























hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/] 























MNIST 训练 集 共 有 60 000 条 数据 ， 有 10 个 文件 ， 每 个 文件 有 6 000 282948774, H 











bels/ SUCCESS 
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2 
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hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00004 
2 
a 
2 
a 
2 
a 
2 
a 
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la 


bels/part-00000 


bels/part-00001 


bels/part-00002 


bels/part-00003 


bels/part-00005 


bels/part-00006 


bels/part-00007 


bels/part-00008 


bels/part-00009 
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储 的 格式 和 标记 向 量 格式 如 图 




















168,228,253,251,92,0,0. 0,0,0,0,0,0,0,27,253,25 
,199 o ,0,0,0,159,253,31,0,0,0,0,0,0,39, 105,183,253, 253,253,46, 
0,0,0,0,0,0,0,0,0,0,0,0,234,189,4,0,0,0,7,33,120,233,253,253,253,246,107,6,0,0,0,0,0,0,0,0,0,0,0,0,208,228,20,0,27,84,200,253,253,253,253,248,191,63,0,0,0,0,0,0,0,0,0,0,0,0,0,0,130 
,253,211,110,171,253,253,253,250,193,71,38,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,130,253,253,253,253,253,233,184,24,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,88,253,253,253,253,212,32,0,0,0, 


0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,24,152,251,253,253,253,253,117,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,176,253,253,253,127,187,253,201,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,186,253 
,253,227,89,2,61,248,201,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,34,238,253,162,36,0,0,0,213,239,37,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,56,253,169,7,0,0,0,0,213,207,6,0,0,0,0,0,0,0,0,0,0 
0,73,224,253,253,253 
0,0,0,0,0,0,0,0,0,0, 





图 18-4 



































这 里 ， 我 们 主要 是 把 训练 集 和 测试 集 分 别 保存 成 RDD 数据 ， 具 体 代码 参见 ${TFoS_HOME}/ 





examples/mnist/mnist data_setup.py。 关 键 代 码 如 下 : 


writeMNIST(sc, "mnist/train-images-idx3-ubyte.gz", "mnist/train-labels-idxl- 
ubyte.gz", args.output + "/train", args.format, args.num partitions) 
writeMNIST(sc, "mnist/tlO0k-images-idx3-ubyte.gz", "mnist/tlOk-labels-idxl- 
ubyte.gz", args.output + "/test", args.format, args.num partitions) 


调用 writeMNIST 函数 ， 将 RDDs 保存 为 特定 格式 : 




















def writeMNIST(sc, input images, input labels, output, format, num partitions): 
"" "将 MNIST 图 像 和 标记 向 量 写 入 HDFS 上 """ 
with open(input images, 'rb') as f: 
images = numpy.array(mnist.extract images (f)) 


with open(input labels, 'rb') as f: 
labels - numpy.array(mnist.extract labels(f, one hot-True)) 


shape = images.shape 
print("images.shape: {0}".format (shape)) # 60000 x 28 x 28 
print("labels.shape: {0}".format(labels.shape)) # 60000 x 10 


imageRDD = sc.parallelize(images.reshape(shape[0], shape[1] * shape[2]), 
num partitions) 
labelRDD = sc.parallelize(labels, num partitions) 


output images = output + "/images" 
output labels = output + "/labels" 


* 将 RDDs 保存 为 特定 格式 


if format == "pickle": 
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imageRDD.saveAsPickleFile(output images) 
labelRDD.saveAsPickleFile (output labels) 


elif format == "csv": 


imageRDD.map(toCSV).saveAsTextFile (output images) 
labelRDD.map(toCSV).saveAsTextFile (output labels) 


接着 ， 提 交 训 练 任务 ， 开 始 训练 ， 命 令 如 下 ， 我 们 最 终 在 HDFS | 





${SPARK HOME)/bin/spark-submit V 
--master $(MASTER) \ 
--py-files 








S(TFoS HOME)/tfspark.zip,S$(TFoS HOME]/examples/mnist/spark/mnist dist.py \ 


--conf spark.cores.max-S$(TOTAL CORES] \ 


--conf spark.task.cpus-$(CORES PER WORKER] 


N 


--conf spark.executorEnv.JAVA HOME-"S$JAVA HOME" N 
S(TFoS HOME) /examples/mnist/spark/mnist spark.py \ 
--cluster size EI SPARK WORKER INSTANCES] N 





--images examples/mnist/csv/train/images \ 
--labels examples/mnist/csv/train/labels \ 


--format csv \ 
--mode train \ 
--model mnist model 

















这 里 的 mnist_dist.py 主要 是 构建 TensorFlow 分 布 式 任务 ,其 中 定义 了 分 布 式 作 
也 就 是 启动 TensorFlow 的 主 函 数 map fun, XH HAE 
TensorFlowOnSpark 代码 主要 是 获取 TensorFlow RF 





























cluster, server = IFNodes.start cluster server(ctx, 1, args. 









































D 





mnist_spark.py 文 





取 方 式 是 Feeding. XXE 
和 服务 器 实例 ， 如 下 : 


rdma) 


其 中 TFNode 调用 我 们 刚才 打包 好 的 tfspark.zip 中 的 TFNode.py 文件 。 
是 我 们 训练 的 主 程序 ， 体 现 了 TensorFlowOnSpark 的 部 署 步 又， 如 下 ; 


Sc = SparkContext (conf=SparkConf ().setAppName ("mnist spark") 


executors - sc. conf.get("spark.executor.instances") 


num executors - int(executors) if executors is not None else 1 


num ps = 1 


cluster - TFCluster.reserve(sc, args.cluster size, num ps, 


TFCluster.InputMode.SPARK) #1. XE Executor 执行 上 的 每 个 Tensor 





cluster.start (mnist dist.map fun, args) 


if args.mode == "train": 


else: 
labelRDD = cluster.inference (dataRDD) 


labelRDD.saveAsTextFile (args.output) 





预测 的 过 程 也 类 似 ， 运 行 如 下 命令 : 





* 2. 





args.tensorboard, 








上 生成 了 mnist model: 


E 务 的 主 函数 ， 




















到 的 














Flow 进程 保留 


个 端 




















cluster.train(dataRDD, args.epochs) 4 3. 训 练 


# 预测 


启动 Tensorflow 主 函数 


cluster.shutdown() # 4. 关 闭 Executor 上 的 TensorFlow 计算 节点 和 参数 服务 节点 
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$(SPARK HOME) /bin/spark-submit \ 

--master $(MASTER] \ 

--py-files 

S(TFoS HOME)/tfspark.zip,S$(TFoS HOME]/examples/mnist/spark/mnist dist.py \ 
--conf spark.cores.max-S$(TOTAL CORES] \ 

--conf spark.task.cpus-$(CORES PER WORKER] \ 
--conf spark.executorEnv.JAVA HOME-"S$JAVA HOME" N 
S(TFoS HOME) /examples/mnist/spark/mnist spark.py \ 
--cluster size S(SPARK WORKER INSTANCES] N 
--images examples/mnist/csv/test/images V 

--labels examples/mnist/csv/test/labels \ 

--mode inference \ 

--format csv \ 

--model mnist model \ 

--output predictions 


最 终 输 出 的 预测 文件 如 下 : 








2017-03-10T23:29:17.009563 Label: 7, Prediction: 7 
2017-03-10T23:29:17.009677 Label: 2, Prediction: 2 








` 














其 实 ， 除 了 单机 版 的 Standalone 模式 外 ， 官 方 网 站 上 还 介绍 了 在 Amazon EC2 上 i 
在 Hadoop 集群 上 采用 YARN 模式 运行 ， 请 读者 自行 参考 。 


J 以 及 


(pi 
































18.3 人 小结 




















本 章 主要 介绍 了 雅虎 公司 的 开源 工具 TensorFlowOnSpark 的 架构 及 使 用 。 读 者 只 需要 改 很 
少 的 代码 就 可 以 将 TensorFlow 和 Spark 结合 ， 真 正 实现 大 数据 的 深度 学 习 训练 。 
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TensorFlow 移动 端 应 用 


























深度 学 习 在 声 频 、 图 像 、 视 频 处 理 上 已 经 取得 了 令 人 印象 深刻 的 进步 ， 




















但 它 通常 运行 在 功 























能 强大 的 计算 机 上 ， 如 果 需 要 运行 在 手机 等 移动 设备 或 者 树 春 派 等 获 入 式 平 台 上 呢 ? 
TensorFlow 目前 是 最 有 竞争 力 成 为 未 来 主流 的 深度 学 习 框架 , 谷歌 公司 不 仅 为 自己 研发 的 操作 


























系统 








19.1 移动 端 应 用 原理 











Android 提供 了 TensorFlow 移动 端 文 持 ， 而 且 对 iOS 和 树 侮 派 也 提供 


在 移动 端 或 者 圣 入 式 设 备 上 应 用 深度 学 习 ， 有 两 种 方式 : 一 是 将 模型 运行 在 云端 服务 器 上 ， 

















TS CHE. 








向 服务 器 发 送 请 求 ， 接 收服 务 器 响应 ， 二 是 在 本 地 运行 模型 。 一 般 来 说 ， 采 用 后 者 的 方式 ， 也 



































就 是 在 PC 上 训练 好 一 个 模型 ， 然 后 将 其 放 在 移动 端 上 进行 预测 。 













































































的 数据 的 代价 就 变 得 非常 高 易 。 其 次 ， 运 行 在 本 地 的 实时 性 更 好 。 但 问题 是 ， 

















使 用 本 地 运行 模型 原因 在 于 ， 首 先 ， 向 服务 端 请 求 数据 的 方式 可 行 性 差 。 移 动 端的 资源 (如 网 
络 、CPU、 内 存 资源 ) 是 很 稀缺 的 。 例 如 ， 在 网 络 连接 不 恨 或 者 丢失 的 情况 下 ， 
一 个 模型 大 小 动 辑 几 





向 服务 端 发 送 连续 




















百 兆 ， 且 不 说 把 它 安装 到 移动 端 需要 多 少 网 络 资源 ， 就 是 每 次 预测 时 需要 的 内 存 资源 也 是 很 多 的 。 

那么 ， 要 在 性 能 相对 较 弱 的 移动 /内 入 式 设备 (如 没有 加 速 器 的 ARM CPU) 上 高 效 运 行 一 个 CNN,， 

应 该 怎么 做 呢 ? 这 就 衍生 出 了 很 多 加 速 计算 的 方向 , 其 中 重要 的 两 个 方向 是 对 内 存 空间 和 速度 的 优 
采用 的 方式 一 是 精简 模型 ， 既 可 以 节省 内 存 空间 ， 也 可 以 加 快 计 算 速 度 ; 二 是 加 快 框架 的 执行 

速度 ， 影 响 框 架 执 行 速度 主要 有 两 方面 的 因素 ， 即 模型 的 复杂 度 和 每 一 步 的 计算 速度 。 

精简 模型 主要 是 使 用 更 低 的 权重 精度 , 如 量化 (quantization) 或 权重 剪 枝 (weight pruning). 
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Si bUeTRBDIBORIXEBS, JEPPETBUEDEBHIKCT A BREER A P2 UIS ER 
而 加 速 框 架 的 执行 速度 一 般 不 会 影响 模型 的 参数 ， 是 试图 优化 矩阵 之 间 的 通用 乘法 (GEMM) 
























































进行 GEMM 运算 ) 





运算 ， 因 此 会 同时 影响 卷 积 层 〈 卷 积 层 的 计算 是 先 对 数据 进行 im2col 运算 ， 再 











(D imo 的 主要 功能 是 对 索引 的 图 像 块 重 排列 为 矩阵 列 。 它 是 先 将 一 个 大 矩阵 ， 重 谷地 划分 为 多 个 子 和 矩阵 ， 对 每 个 








子 和 矩阵 序列 化 成 向 量 ， 最 后 得 到 另 一 个 和 矩阵 。 
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和 全 连接 层 。 
下 面 我 们 就 分 别 来 介绍 。 

















1911 量化 ? 











量化 (quantitative )， 这 里 不 是 指 金融 上 的 量化 交易 ， 而 是 指 离 散 化 。 量 化 是 一 个 总 括 
术语 ， 是 用 比 32 位 浮 点 数 更 少 的 空间 来 存储 和 运行 模型 ， 并 且 TensorFlow 量化 的 实现 屏 
蔽 了 存储 和 运行 细节 。 
神经 网 络 训 练 时 要 求 速度 和 准确 率 , 训练 通常 在 GPU 上 进行 , 所 以 使 用 浮 点 数 影响 不 大 。 
但 是 在 预测 阶段 ， 使 用 浮 点 数 会 影响 速度 。 量 化 可 以 在 加 快速 度 的 同时 ， 保 持 较 高 的 精度 。 
量化 网 络 的 动机 主要 有 两 个 。 最 初 的 动机 是 减 小 模型 文件 的 大 小 。 模 型 文件 往往 占据 很 大 
的 磁盘 空间 ,例如 ，6.6 节 中 介绍 的 模型 ， 每 个 模型 都 接近 200 MB， 模 型 中 存储 的 是 分 布 在 大 
量 层 中 的 权 值 。 在 存储 模型 的 时 候 用 8 位 整数 ， 模 型 大 小 可 以 缩小 为 原来 32 位 的 2$% 左 右 。 
在 加 载 模型 后 运算 时 转换 回 32 位 浮 点 数 ， 这 样 已 有 的 浮 点 计算 代码 无 需 改动 即 可 正常 运行 。 
量化 的 男 一 个 动机 是 降低 预测 过 程 需 要 的 计算 资源 ,这 在 租 入 式 和 移动 端 非常 有 意义 ， 
能 够 更 快 地 运行 模型 ， 功 耗 更 低 。 从 体系 架构 的 角度 来 说 ，8 位 的 访问 次 数 要 比 32 位 多 ， 
在 读 取 8 位 整数 时 只 需要 32 位 浮 点 数 的 /4 的 内 存 带宽 ， 例如， 在 32 位 内 存 带 宽 的 情况 
下 ,8 位 整数 可 以 一 次 访问 4 个 ,32 位 浮 点 数 只 能 1 次 访问 1 个 ,而 且 使 用 SIMD 指令 (19.2 
节 会 加 速 介绍 该 指令 集 )， 可 以 在 一 个 时 钟 周期 里 实现 更 多 的 计算 。 男 一 方面 ，8 位 对 骸 入 
式 设 备 的 利用 更 充分 ， 因 为 很 多 先 入 式 芯 片 都 是 8 位、16 位 的 ， 如 单片机 、 数 字 信 和 号 处 理 
器 (DSP 芯片 )，8 位 可 以 充分 利用 这 些 。 
此 外 ， 神 经 网 络 对 于 噪声 的 健壮 性 很 强 ， 因 为 量化 会 带 来 精度 损失 (这 种 损失 可 以 认 
为 是 一 种 噪声 )， 并 不 会 危害 到 整体 结果 的 准确 度 。 
那 能 否 用 低 精 度 格 式 来 直接 训练 呢 ? 答案 是 ， 大 多 数 情况 下 是 不 能 的 。 因 为 在 训练 时 ， 尽 各 
前 向 传播 能 够 顺利 进行 ， 但 往往 反 向 传播 中 需要 计算 梯度 。 例 如 ， 梯 度 是 0.2， 使 用 浮 点 数 可 以 
很 好 地 表示 ， 而 整数 就 不 能 很 好 地 表示 ， 这 会 导致 梯度 消失 。 因 此 需要 使 用 高 于 8 位 的 值 来 计算 
梯度 。 因 此 ， 正 如 在 本 节 一 开始 介绍 的 那样 ， 在 移动 端 训练 模型 的 思路 往往 是 ， 在 PC 上 正常 训 
练 好 浮 点 数 模型 ， 然 后 直接 将 模型 转换 成 8 位 ， 移 动 端 是 使 用 S 位 的 模型 来 执行 预测 的 过 程 。 
下 面 我 们 就 以 8 位 精度 的 存储 和 计算 来 说 明 。 
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1. 量化 示例 








我 们 举 个 将 GoogleNet 模型 转换 成 8 位 模型 的 例子 ， 看 看 模型 的 大 小 减 小 多 少 ， 以 及 用 它 




















OD 本 节 参 考 自 官方 网 站 《How to Quantize Neural Networks with TensorFlow》: https://www.tensorflow.org/performance/quantization。 
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预测 





的 结果 怎么 样 。 
从 官方 网 站 上 下 载 训练 好 的 GoogleNet 模型 ， 解 压 后 ， 放 在 /tmp 目录 下 ， 然 后 执行 : 


bazel build tensorflow/tools/quantization:quantize graph 




















bazel-bin/tensorflow/tools/quantization/quantize graph \ 
--input-/tmp/classify image graph def.pb \ 
--output node names-"softmax" --output-/tmp/quantized graph.pb \ 
--mode-eightbit 





生成 量化 后 的 模型 quantized graph.pb 大 小 只 有 23 MB， 是 原来 模型 classify image graph | 











defpb (91 MB) 的 14。 它 的 预测 效果 怎么 样 呢 ? 执行 : 

















bazel build tensorflow/examples/label image:label image 
bazel-bin/tensorflow/examples/label image/label image \ 
--image-/tmp/cropped panda.jpg \ 

--graph-/tmp/quantized graph.pb \ 
--labels-/tmp/imagenet synset to human label map.txt \ 
--input width-299 \ 

--input height-299 \ 

--input mean-128 ^ 

--input std-128 \ 

--input layer-z"Mul:0" \ 





--output layer-"softmax:0" 


运行 结果 如 图 19-1 所 示 ， 可 以 看 出 8 位 模型 预测 的 结果 也 很 好 。 














2. 量化 过 程 的 实现 


TensorFlow 的 量化 是 通过 将 预测 的 操作 转换 成 等 价 的 8 位 版 本 的 操作 来 实现 的 。 量 化 操作 
如 图 19-2 所 示 。 
图 19-2 中 左 侧 是 原始 的 Relu 操作 ， 输 入 和 输出 均 是 浮 点 数 。 右 侧 是 量化 后 的 Relu 操作 ， 




















































































































先 根 据 输入 的 浮 点 数 计算 最 大 值 和 最 小 值 ， 然 后 进入 量化 (Quantize) 操作 将 输入 数据 转换 成 8 
位 。 一 般 来 讲 ， 在 进入 量化 的 Relu CQuantizedRelu) 处 理 后 ， 为 了 保证 输出 层 的 输入 数据 的 准 
确 性 ， 还 需要 进行 反 量 化 (Dequantize) 的 操作 ， 将 权重 再 转 回 32 位 精度 ， 来 保证 预测 的 准确 
性 。 也 就 是 整个 模型 的 前 向 传播 采用 8 位 整数 运行 ， 在 最 后 一 层 之 前 加 上 一 个 反 量化 层 ， 把 8 
位 转 回 32 位 作为 输出 层 的 输入 。 























实际 上 ， 我 们 会 在 每 个 量化 操作 (如 QuantizedMatMul、QuantizedRelu 等 ) 的 后 面 执行 反 




















© 下 载 路 径 http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz。 


第 19 &  TensorFlow 移动 端 应 用 44 265 

















量化 操作 (Dequantize)， 如 图 19-3 左 侧 所 示 ， 在 QuantizedMatMul 后 执行 反 量化 和 量化 操作 可 
以 相互 抵消 。 因 此 ， 如 图 19-3 右 侧 所 示 ， 在 输出 层 之 前 做 一 次 反 量化 操作 就 可 以 了 。 


AUN CERDO 












































Min 
输出 ( 浮 点 数 ) 








3. 量化 数据 的 表示 




















将 浮 点 数 转换 为 8 位 的 表示 实际 上 是 一 个 压缩 问题 。 实 际 上 ， 权 重 和 经 过 激活 函数 处 理 过 
的 上 一 层 的 输出 (也 就 是 下 一 层 的 输入 〉 实际 上 是 分 布 在 一 个 范围 内 的 值 。 量 化 的 过 程 一 般 是 
找 出 最 大 值 和 最 小 值 后 ， 将 分 布 在 其 中 的 浮 点 数 认为 是 线性 分 布 ， 做 线性 扩展 。 因 此 ， 假 设 最 
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小 值 是 -10.0f， 最 大 值 是 30.0f， 那 量化 后 的 结果 如 表 19-1 所 示 。 




















表 19-1 

量化 后 的 值 原始 的 浮 点 数 
0 -10.0 
255 30.0 
128 10.0 





19.1.2 ”优化 矩阵 乘法 运算 


谷歌 公司 开源 了 一 个 小 型 独立 的 低 精 度 通用 矩阵 乘法 (General Matrix to Matrix Multiplication, 
GEMM) 库 一 gemmlowp . 


























19.2 iOS 系统 实践 





本 节 先 带领 读者 编译 完成 在 IOS 系统 上 需要 的 TensorFlow 程序 ,然后 真实 地 编译 一 个 能 在 Xcode 
模拟 器 中 运行 的 图 片 识别 模型 ， 随 后 讲解 使 用 自己 的 数据 ， 如 何在 PC 端 训练 好 一 个 模型 ， 经 过 3 道 
工序 的 模型 优化 后 ， 编 译 成 iOS 支持 的 模型 ， 并 生成 iOS 工程 文件 安装 在 iPhone 上 运行 。 












































19.2.1 “环境 准备 


需要 运行 在 操作 系统 Mac OS X 上 的 集成 开发 工具 Xcode, 7.3 〈 含 ) 以 上 版 本 即 可 。 图 19-4 
是 笔者 所 用 的 版 本 。 









































Xcode 


Version 8.3.1 (8E1000a) 





Acknowledgments License Agreement 











图 19-4 




















随后 ， 需 要 编译 包含 TensorFlow 核心 的 静态 库 ， 在 tensorflow-1.1.0 目录 下 运行 : 














© 库 地 址 为 https://github.com/google/gemmlowp。 
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tensorflow/contrib/makefile/download dependencies.sh 


运行 时 会 把 相应 的 依赖 库 下 载 到 tensorflow/contrib/makefile/downloads/ H 3& 


Xu 
本 











|— eigen & c++ 开源 矩阵 计算 工具 

上 一 gemmlowp  # 小 型 独立 的 低 精度 通用 和 矩阵 乘法 (GEMM) 库 
上 一 googletest $4 谷歌 开源 的 C++ 测试 框架 
I— 
Lol 





protobuf 谷歌 开源 的 数据 交换 格式 协议 
re2 谷歌 开源 的 正则 表达 式 库 














deo 











19.2.2 ”编译 演示 程序 并 运行 


在 tensorflow-1.1.0 目录 下 运行 : 


tensorflow/contrib/makefile/build all ios.sh 








经 过 编译 后 会 生成 一 个 静态 库 ， 位 于 tensorflow/contrib/makefile/gen/lib F, WF: 
上 一 ios_ARM64 


ios ARMV7 
ios ARMV7S 


= 
= 
上 一 ios_I386 
= 
L_ 











ios X86 64 
libtensorflow-core.a 





这 时 就 可 以 在 Xcode 的 模拟 器 上 以 及 iOS 设备 上 运行 App 的 预测 示例 了 。 

在 TensorFlow 的 iOS 示例 中 ， 共 有 3 个 目录 ， 代 表 3 个 示例 ， 其 中 benchmark. 目录 是 预 
测 的 基准 示例 ，simple 目录 是 图 片 的 预测 示例 ，camera 目录 是 视频 流 实时 预测 示例 。 

从 官方 网 站 E FER Inception V1 模型 ， 这 是 在 ImageNet 上 训练 好 的 能 识别 1000 类 图 片 的 
识别 模型 。 
把 解压 后 的 Inception V1 模型 分 别 复制 到 benchmark、simple、camera 下 的 data 目录 中 ， 分 别 进 
入 这 3 个 目录 ， 运 行 目录 下 后 级 名 为 xcodeproj 的 文件 。 如 图 19-5 所 示 ， 进 入 simple 目录 中 运行 。 




























































































lijiaxuan 
lijiaxuan 
lijiaxuan 
tiji 


AppDelegate.h 
AppDelegate.mm 
RunModel-Info.plist 
RunModelViewController.h 
RunModelViewController .mm 
RunModelViewController.xib 


os. image load.h 
ios image load.mm 
:39 main.mm 


lijiaxuan 
lijiaxuan 
lijiaxuan 


1 
t 
a 
ia 
a 
1 
6 
1 
1 
1 


-rw- a 
drwxr-xr-x@ 


和 
erem erer 


Un 











QD 代码 位 于 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/ios_examples/。 





Q 模型 的 下 载 地 址 为 https://storage.googleapis.com/download.tensorflow.org/models/inception5h.zip。 
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这 个 程序 识别 的 图 像 是 我 的 一 张 书 包 照 片 〈 如 图 19-6 所 示 )， 将 它 放 在 tensorflow/contrib/ 
ios examples/simple/data 目录 下 ， 并 命名 为 grace hopper.jpg. 





19-6 


如 图 





19-7 所 示 ， 选 择 iPhone 7 Plus 模拟 器 ， 并 点 击 左上 角 运 行 标 志 ， 编 译 完成 后 ， 模 拟 器 
的 页 面 会 出 现 一 个 “Run Model” 按 钮 ， 每 单 击 一 次 按钮 就 进行 一 次 预测 ， 预 测 结果 见 Xcode 
的 控制 台 。 








E nar 


No Editor 






- T <7 | T tt os makefle example 

2017-04-19 21:23:32.747138: W tensorflow/core/platform/cpu feature guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine 
and could speed up CPU computations. 

12:32. 'flow/core/platforn/cpu, feature, guard.cc:45) The TensorFlow library 

and up CPU compi 





n't compiled to use SSE4.2 ins 
'flon/core/platforn/cpu. feature guard.cc:45) The TensorFlow library 





ons, but these are available on your machine 
t compiled to use AVX instructions, but these are available on your machine and 





led 
ng sessi: 


sion. 
Predictions: 847 0.754 backpack ak 











图 19-7 
可 以 看 出 ， 识 别 结果 背包 backpack) 的 概率 是 0.754， 第 二 个 预测 结果 是 邮 袋 (mailbag), 
概率 是 0.191. 
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19.2.3” 自 定义 模型 的 编译 及 运行 


如 果 我 们 想 要 训练 自己 的 模型 在 手机 端 做 预测 , 该 如 何 做 呢 ? 这 里 我 门 假设 想 在 手机 上 有 一 个 
实时 花卉 识别 模型 ， 当 打开 App 时 ， 摄 像 头 对 准 某 束 花 ，App 立刻 告诉 我 这 束 花 的 品种 。” 

我 们 从 官方 网 站 下 载 花卉 数据 解压 放 在 /tmp 下 后 ,可 以 看 到 郁金香 (tulips)、 玖 瑰 (roses)、 
蒲公英 (dandelion), MHZ% (sunflowers), 4E% (daisy) 5 种 花卉 的 文件 目录 ， 每 个 目录 中 存 
放 着 近 800 张 该 花 开 品种 的 图 片 ， 如 下 : 

I—— LICENSE.txt 

I— daisy 

| 六 一 dandelion 


| 六 一 roses 
| 六 一 sunflowers 


L—— tulips 




















= 
































































































































1. 训练 原始 模型 



































我 们 使 用 TensorFlow 官方 网 站 提供 的 预 训练 好 的 Inception V3 模型 在 此 花卉 数据 
训练 。 在 项 目 根 目录 tensorflow-1.1.0 下 执行 : 
python tensorflow/examples/image retraining/retrain.py \ 


--bottleneck dir-/tmp/bottlenecks/ \ 
--how many training steps 10 \ 








im 
f 
FT 
— 
D 
































--model dir-/tmp/inception \ 

--output graph-/tmp/retrained graph.pb \ 

--output labels-/tmp/retrained labels.txt \ 

--image dir /tmp/flower photos 

训练 完成 后 ， 可 以 在 /tmp 下 看 到 生成 的 模型 文件 retrained_graph.pb〈 大 小 为 83 MB) 和 标 
签 文 件 retrained labels.txt。 


我 们 看 到 ， 上 述 命 令 行 中 存储 和 使 用 了 “ 瓶 诺 ”(bottlenecks〉 文件 。 瓶 颈 是 用 于 描述 实际 
进行 分 类 的 最 终 输出 层 之 前 的 层 (倒数 第 三 层 ) 的 非 正式 术语 。 倒 数 第 二 层 已 经 被 训练 得 很 好 ， 
忆 此 瓶颈 值 会 是 一 个 有 意义 且 紧 凑 的 图 像 摘要 , 并 且 包 含 足够 的 信息 使 分 类 器 做 出 选择 。 因 此 ， 
在 第 一 次 训练 的 过 程 中 ，retrain.py 文件 的 代码 会 先 分 析 所 有 的 图 片 ， 计 算 每 张 图 片 的 瓶颈 值 并 
存储 下 来 。 因 为 每 张 图 片 在 训练 的 过 程 中 会 被 使 用 多 次 ， 因 此 在 下 一 次 使 用 的 过 程 中 ， 可 以 不 
必 重 复 计 算 。 这 里 用 tulips/9976515506 d496c5e72cjpg 为 例 ， 生 成 的 瓶颈 文件 为 tulips/ 
9976515506 _d496c5e72c.jpg.txt， 内 容 如 图 19-8 所 示 。 
















































































































































































































































































( 本 节 讲 解 的 内 容 部 分 参考 官方 网 站 https//www.tensorflow.org/tutorials/image retraining. 





© http://download.tensorflow.org/example images/flower photos.tgz 








© USE http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz . 
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2. 编译 成 iOS 支持 的 模型 " 














这 里 ， 从 原始 模型 到 iOS 支持 的 模型 将 经 过 3 个 阶段 的 处 理 。 首 先是 去 掉 iOS 系统 不 支持 
的 操作 ， 并 优化 模型 ， 然 后 将 模型 进行 量化 ， 权 重 变 为 8 位 的 常数 ， 缩 小 模型 ， 最 后 对 模型 做 
一 个 内 存 映 射 。 我 们 接 下 来 分 步骤 细 讲 。 

COD 去 掉 iOS 不 支持 的 操作 并 优化 模型 。 

因为 移动 设备 的 内 存 资 源 稀缺 昌 还 需要 下 载 应 用 程序 ， 所 以 默认 情况 下 ，iOS 版 本 的 
TensorFlow 仅 支 持 在 预测 阶段 中 常见 的 且 没 有 很 大 的 外 部 依赖 关系 的 操作 。 官 方 网 站 维护 了 一 
份 支持 的 操作 列表 o 
目前 有 个 操作 DecodeJpeg 不 被 支持 ， 这 个 操作 是 用 来 对 JPEG 格式 的 图 片 进行 解码 的 ， 但 
是 它 的 实现 依赖 于 libjpeg, libjpeg 在 iOS 上 的 支持 非常 麻烦 , 并 且 还 会 增加 二 进 制 的 占用 空间 。 
同时 ， 对 于 本 次 的 应 用 来 说 ， 我 们 希望 从 摄像 关中 实时 识别 出 花卉 的 种 类 ， 直 接 处 理 相 机 的 图 
像 缓冲 区 ， 不 需要 先 存 成 JP 了 EG 文件 ， 然 后 再 解码 。 

而 恰好 我 们 基于 预 训 练 模型 Inception v3 是 从 图 片 数据 集中 训练 而 得 ， 模 型 是 包含 了 DecodeJpeg 
操作 。 所 以 需要 把 输入 数据 直接 供给 (feed). REE Decode 后 的 Mul 操作 来 绕 过 Decode 操作 。 
而 恰好 我 们 基于 预 训练 模型 Inception V3 训练 的 模型 包含 了 DecodeJpeg 操作 ， 所 以 把 输入 
数据 直接 填充 (feed) 到 发 生 在 解码 后 的 Mul 操作 来 绕 过 解码 操作 。 


这 个 步骤 也 会 做 一 些 优 化 来 加 速 预测 ， 例 如 ， 将 显 式 批 处 理 规范 化 〈explicit batch 
normalization). 操作 合并 到 卷 积 权重 中 ， 以 减少 计算 次 数 。 命 令 如 下 : 


bazel build tensorflow/python/tools:optimize for inference 
bazel-bin/tensorflow/python/tools/optimize for inference \ 
--input-/tmp/retrained graph.pb \ 
--output-/tmp/optimized graph.pb \ 

--input names-Mul \ 

--output names-final result 


在 /tmp/ 生 成 模型 optimized graph.pb 〈 大 小 为 83 MB )， 可 以 通过 label image 命令 来 预测 ， 
验证 模型 的 有 效 性 ， 如 下 : 


bazel-bin/tensorflow/examples/label image/label image \ 


































































































































































































































































































--output layer-final result \ 





QD) 本 小 节 内 容 参考 https:/petewarden.com/2016/09/27/tensorflow-for-mobile-poets/ « 
© 文 持 的 操作 列表 参见 htps//gihub.com/ensorflow/tensorflow/blob/master/tensorflow/contrib/makefile/tf op files.txt. 
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--labels-/tmp/retrained labels.txt \ 

--image-/tmp/flower photos/daisy/5547758 eea9edfd54 n.jpg \ 
--graph-/tmp/optimized graph.pb 

meus layer-Mul 


结果 如 图 19-9 所 示 ， 模 型 还 是 有 效 的 。 


les/label image/main 
X es/label_image/mai 
xamples/label_ / 


nples/label. ge/main.c 
I tensorflow/examples/label image/main.c 














管 苹果 系统 在 .ipa 包 中 分 发 应 用 程序 ， 所 有 应 用 程序 中 的 资源 都 会 使 用 zip 压缩 。 但 通 
常 模 型 不 能 很 好 地 压缩 ， 因 S (范围 为 0~255), Sj k— t 
住 确 度 ， 但 通常 小 于 1%。 运 行 命令 如 下 : 


bazel build tensorflow/tools/quantization:quantize graph 
bazel-bin/tensorflow/tools/quantization/quantize graph \ 
--input-/tmp/optimized graph.pb \ 

--output-/tmp/rounded graph.pb \ 

--output node names-final result \ 

--mode-weights rounded 


在 /tmp 下 生成 模型 rounded graph.pb, 大 小 为 83MB, 但 是 经 过 zip 命令 压缩 能 达到 23 MB. 
(3) 内 存 映射 。 
我 们 需要 处 理 的 最 后 一 个 步骤 是 内 存 映射 ”Cmemory mapping)。 如 果 App 把 83 MB 的 模型 全 
部 一 次 性 加 载 到 内 存 缓冲 区 ， 光 加 载 这 一 步 就 会 对 iOS 的 RAM 上 施加 很 大 的 压力 ， 同 时 ， 操 作 系 
统 会 不 可 预知 地 杀 死 使 用 内 存 过 多 的 应 用 程序 。 我 们 需要 使 用 的 模型 权 值 缓冲 区 是 只 读 的 ， 因 此 可 
以 把 它 映 射 到 内 存 中 。 当 有 内 存 压 力 时 ， 操 作 系统 可 以 直接 释放 些 内 存 ， 来 避免 系统 直接 骨 溃 。 
如 何 来 做 昵 ? 需要 重新 排列 模型 ， 使 权重 能 够 分 部 分 逐 块 地 从 主 GraphDef 加 载 到 内 存 中 。 
运行 命令 如 下 : 


bazel build tensorflow/contrib/util:convert graphdef memmapped format 
bazel-bin/tensorflow/contrib/util/convert graphdef memmapped format \ 
--in graph-/tmp/rounded graph.pb \ 
--out graph-/tmp/mmapped graph.pb 


这 时 会 在 /tmp 下 生成 模型 mmapped graph.pb (大 小 为 83 MB). 
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3. 生成 iOS 工程 文件 并 运行 
我 们 使 用 19.2.2 节 中 粗略 介绍 过 的 视频 流 实时 预测 的 演示 程序 的 例子 ”， 将 模型 文件 和 标 



































© ”内存 映 射 是 指 把 物理 内 存 映 射 到 进程 的 地 址 空间 之 内 ， 随 后 应 用 程序 就 可 以 直接 使 用 输入 /输出 的 地 址 空间 ， 从 而 


© 地 址 为 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/ios_examples/camera。 
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记 文 件 复制 到 tensorflow-1.1.0/tensorflow/contrib/ios examples/camera/data 目录 下 。 


然后 修改 tensorflow-1.1.0/tensorflow/contrib/ios examples/camera 下 的 文 伯 





F CameraExample 


ViewController.mm， 更 改 要 加 载 的 模型 文件 名 称 、 输 入 图 片 的 尺寸 、 操 作 节 点 的 名 字 以 及 绽放 


像素 大 小 等 。 如 下 : 


static NSString* model file name 


@ 
static NSString* model file type @ 
const bool model uses memory mapping 


static NSString* labels file name 
static NSString* labels file type 
// 以 下 尺寸 需要 和 模型 训练 时 相 匹 配 


const int wanted input width 








299; 
299; 
int wanted input channels = 3; 
float input mean 128.0f; 
float input std 128.0f; 
Std::string input layer name 


const int wanted input height 


const 


const 


const 


const 


const std::string output layer name 


最 后 连 上 iPhone FHL, 3 





"mmapped graph"; 
"pb"; 


true; 
G"retrained labels"; 
Gtt"; 


"Mul " s 
"final result"; 


可 以 双击 tensorflow-1.1.0/tensorflow/contrib/ios examples/camera/ 








camera example.xcodeproj 编译 并 运行 了 。 运 行 后 ， 会 在 手机 上 安装 好 App, ITH 
图 19-10 所 示 。 











HARRI, Wong 


吉 果 如 














F App 并 找到 玫 





41% Roses 

28% Yütips - 

E 135| Sunflowers 

12x Dandelion 
sl Daisy : 


Freeze Frame 





图 19-10 














这 是 
可 以 使 识别 概率 达到 99% 以 上 。 
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概率 并 不 是 很 高 ， 原 因 是 我 在 训练 的 时 候 迭 代 次 数 只 设置 了 10 次 , 设置 10 000 次 后 ， 



































那么 ， 这 个 安装 到 iOS 系统 上 的 工程 文件 








| 


掉 究 竟 包 含 了 什么 ， 才 达到 用 摄像 头 实时 识别 























的 目的 呢 ? 生 成 的 打包 好 的 工程 文件 位 于 /Users/lijiaxuan/Library/Developer/Xcode/DerivedData/ 
camera example-dwwvzqamrwtfblfprxmxpvwasgin/Build/Products/Debug-iphoneos 下 ， 如 图 19-11 


所 示 。 





Ml Debug-iphoneos 


EÉd- 0 x x 
A à 


CameraExample CameraExample.a 
pp.dSYM 





Q 












































图 19-11 
我 们 打开 CameraExample.app 文件 一 探究 竟 。 里 
CameraExample 以 及 以 资源 文件 方式 存储 的 模型 文 伯 





labels.txt， 如 图 19-12 所 示 。 


而 就 包含 了 安装 在 iPhone 上 的 可 执行 文件 
E mmapped graph.pb 和 标记 文件 retrained _ 











.png provision 


Pkglnfo retrained labels.t 


xt 





* CameraExample 
= 中 Iol Sv 4 
m m. E PROV pm Lj] -— 
-CodeSignature — CameraExample Default-568h@2x embedded.mobile 


en.Iproj Info.plist mmapped graph. 
pb 

















19-12 





19.3 Android 系统 实践 ” 


A 





带领 读者 准备 好 Android. 系统 的 编译 环 









































境 ， 然 后 再 真实 地 编译 一 个 能 在 Android 








手机 上 运行 的 图 片 识别 模型 ， 随 后 讲解 使 用 自己 的 数据 ， 如 何在 PC 端 训练 好 一 个 模型 ， 经 
过 模型 优化 后 ， 编 译 成 Android 支持 的 模型 ， 并 生成 Android apk 文件 安装 在 Android 手机 上 








行 。 














© 本 节 有 部 分 参考 官方 网 站 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android/。 
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19.3.1 “环境 准备 


下 


我 们 先 来 搭建 环境 , 需要 依赖 Java. 
































笔记 本 进行 演示 ， 其 他 操作 系统 的 搭建 环境 与 此 类 似 。 








1. 搭建 Java 环境 


看 就 一 步 一 步 地 介绍 如 何在 有 摄像 头 的 Android 设备 上 运行 TensorFlow 的 
Android SDK, Android NDK., Bazel. Xx H 























图 片 分 类 器 。 
里 仍然 使 用 Mac Pro 


从 Oracle 官方 网 站 下 载 JDK 1.8 版 本 ， 得 到 jdk-8u111-macosx-x64.dmg 文件 ， 双 击 进 行 安 


装 ， 如 





图 19-13 所 示 。 


i| JDK 8 Update 111 


Java Development Kit 


Double-click on icon to install 


JDK 8 Update 111.pkg 














图 19-13 


安装 完毕 后 ， 设 置 Java 的 环境 变量 ， 如 下 : 











JAVA HOME-'/usr/libexec/java home' 
export JAVA HOME 


2. 搭建 Android SDK 环境 











从 Android 官方 网 站 ”下载 Android SDK， 这 里 使 用 的 是 25.0.2 版 本 ， 得 到 文件 android- 


sdk r25.0.2-macosx.zip， 然 后 直接 解压 ， 放 在 ~/Library/Android/sdk 目录 下 。 解 压 后 里 


如 下 : 

















build-tools 

















EIE Hox 















































L— extras 

L— patcher 

L—— platform-tools # 各 版 本 SDK。 有 根据 API Level 划分 的 SDK 版 本 

L— platforms 

H sources 

F—— system-images 

| 一 一 temp # 临时 文件 夹 ， 一 般 在 SDK 更 新 安装 时 用 到 

L—— tools # 各 版 本 通用 的 SDK 工具 。 含 有 adb, aapt, aidl, dx 等 文件 


(D http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 


@ https://developer.android.com 
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3. 搭建 Android NDK 环境 


从 Android 官方 网 站 "下载 Android NDK 的 Mac OS X 版 本 ， 得 到 android-ndkr13b-darwin-x86_ 
64.zip 文件 ， 直 接 解压 即 可 。 解 压 后 得 到 的 目录 如 下 : 

















F—— CHANGELOG.md 
F— build 

I ndk-build 

I ndk-depends 
LF— ndk-gdb 

| ndk-stack 

H ndk-which 

| platforms 

| prebuilt 

F— python-packages 
H shader-tools 
L— simpleperf 
I source.properties 
L— sources 





——— toolchains 


4. 搭建 Bazel 








直接 使 用 brew 安装 bazel， 如 下 : 


brew install bazel 


若 已 安装 ， 用 如 下 方式 更 新 ; 




















brew upgrade bazel 


19.3.2 ”编译 演示 程序 并 运行 


至 此 ， 编 译 Android 手机 的 apk 文件 需要 用 的 环境 都 已 经 搭建 好 了 。 下 面 就 来 编译 一 个 
TensorFlow 的 图 片 分 类 演示 程序 ， 并 在 Android 手机 上 运行 。 相 关 演 示 程 序 在 https://github.com/ 
tensorflow/tensorflow/tree/master/tensorflow/examples/android。 
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1. 编译 演示 程序 

















首先 ， 修 改 tensorflow-1.1.0 的 根 目录 中 的 WORKSPACE 文件 。 将 android sdk repository 
和 android ndk repository 的 配置 改 为 用 户 自己 的 安装 目录 及 版 本 。 具 体 如 下 : 









































(D https://developer.android.com/ndk/downloads/index.html 


Bu 
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android sdk repository( 
name = "androidsdk", 
api level - 25, 
build tools version = "25.0.2", 
# Replace with path to Android SDK on your system 
path = "-«/Library/Android/sdk", 


android ndk repository( 
name-"androidndk", 
path-z"-/Downloads/android-ndk-r1l3b", 
api level-23) 


修改 完毕 后 ， 在 根 目 录用 bazel 构建 : 























bazel build //tensorflow/examples/android:tensorflow demo 


运行 结果 如 下 : 

Target //tensorflow/examples/android:tensorflow demo up-to-date: 
bazel-bin/tensorflow/examples/android/tensorflow demo deploy.jar 
bazel-bin/tensorflow/examples/android/tensorflow demo unsigned.apk 
bazel-bin/tensorflow/examples/android/tensorflow demo.apk 

INFO: Elapsed time: 39.357s, Critical Path: 15.21s 





在 编译 成 功 之 后 , 默认 会 在 tensorflow-1.1.0/bazel-bin/tensorflow/examples/android 目录 下 面 
成 我 们 想 要 的 TensorFlow 演示 程序 ， 如 图 19-14 所 示 。 





Lir 








tensorflow demo. files 
tensorf Low. demo. processed mani fest 


tensorflow demo symbols 








AR] 





19-14 
































下 面 我 们 就 把 生成 的 apk 文件 安装 到 Android 手机 上 并 运行 。 
2. 运行 





将 生成 的 apk 文件 传输 到 手机 上， 利用 手机 摄像 头 看 看 效果 。 这 里 采用 的 是 小 米 Note FHL, 
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搭载 Android 6.0.1 版 本 ， 并 且 需 要 开启 “开发 者 模式 ”。 将 手机 用 数据 线 与 计算 机 相连 ， 进 入 
SDK 所 在 的 目录 下 ， 进 入 platform-tools 文件 夹 ， 找 到 adb 命令 ， 并 执行 : 



































./adb install tensorflow-0.12/bazel-bin/tensorflow/examples/android/tensorflow demo.apk 


这 样 就 将 tensorflow demo.apk 自动 安装 到 手机 上 了 ， 在 手机 上 会 生成 图 19-15 所 示 的 两 个 
App 图 标 。 

打开 TF Detect 的 App. App 会 调 起 手机 摄像 头 ， 对 摄像 头 返回 的 数据 流 进 行 实时 监测 , 监 
测 结果 如 图 19-16 所 示 。 
































TF Classify 





TF Detect — 
图 19-15 图 19-16 

















看 起 来 精度 并 不 是 很 高 ， 与 手机 摄像 头 的 像素 有 关系 。 读 者 可 以 定制 自己 的 图 片 分 类 器 ， 
训练 好 模型 后 ， 重 新 编译 apk 即 可 。 





























19.3.3 ” 自 定义 模型 的 编译 及 运行 


KM 19.2.3 节 中 的 步骤 基本 相同 ， 仍 然 分 为 3 步 : 训练 原始 模型 、 编 译 成 Android 系统 
支持 的 模型 ， 以 及 生成 Andriod apk 文件 并 运行 。 
其 中 ， 训 练 原始 模型 和 编译 成 Android. 系统 支持 的 模型 的 过 程 都 是 相同 的 ， 因 为 都 是 使 用 
项 目 根 目录 下 的 tensorflow/python/tools/optimize for inference.py. tensorflow/tools/quantization/ 
quantize graph.py. tensorflow/contrib/util/convert graphdef memmapped format.cc 分 别 对 模型 进 
行 优 化 。 这 里 ， 我 们 直接 将 第 一 步 生成 的 原始 模型 文件 retrained graph.pb 和 标记 文件 
retrained labels.txt 放 在 tensorflow/examples/android/assets 目录 下 。 































































































需要 修改 tensorflow/examples/android/src/org/tensorflow/demo/TensorFlowImageClassifierjava 中 


要 加 载 的 模型 文件 名 称 , 输入 图 片 的 尺寸 、 操作 节点 的 名 字 和 如 何 缩放 像素 大 小 等 , 这 和 19.2.3 
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节 非 常 类 似 ， 只 是 是 用 Java 语言 实现 的 。 方 法 如 下 : 
private static final int INPUT SIZE = 299; 
private static final int IMAGE MEAN - 128; 
private static final float IMAGE STD - 128; 
private static final String INPUT NAME - "Mul:0"; 
private static final String OUTPUT NAME - "final result:0"; 
private static final String MODEL FILE - "file:///android asset/retrained graph.pb"; 











private static final String LABEL FILE = "file:///android asset/retrained labels.txt"; 


然后 重新 编译 apk， 连 接 上 Android 手机 后 ， 安 装 apk， 方 法 如 下 : 


bazel build //tensorflow/examples/android:tensorflow demo 
adb install -r -g bazel-bin/tensorflow/examples/android/tensorflow demo.apk 


运行 结果 仍 如 图 19-10 所 示 。 











19.4 WERE 


TensorFlow 还 可 以 在 树 莓 派 (Raspberry Pi) 上 运行 , 树 莓 派 是 只 有 信用 卡 大 小 的 微型 电脑 ， 


系统 基于 Linux， 它 也 有 音频 和 视频 功能 。 现 在 有 很 多 树 莓 派 的 应 用 











的 面部 图 片 ， 在 树 签 派 上 训 











开 灯 、 播 放 音 乐 等 各 利 


可 以 自己 参考 文档 。 


19.5 


本 章 讲 解 了 移动 端 模型 


小 结 












































例如 ， 输 入 1 万 张 自 己 
练 人 脸 识 别 的 模型 ， 教 会 它 认识 你 后 ， 可 以 在 你 进入 家 门 后 ， 帮 你 



































功能 。 树 侮 派 上 的 编译 方法 和 直接 在 Linux 环境 上 使 用 十 分 相似 ， 读 者 
























































的 应 用 原理 ， 重 点 讲解 了 量化 这 一 重要 思想 ， 介 绍 了 TensorFlow 在 























iOS 和 Android 移动 端的 应 | 








内 存 映射 。 其 原 到 




















]. FKH TensorFlow 的 工具 对 生成 的 原始 模型 进行 优化 、 量 化 和 




































































都 是 借助 有 摄像 头 的 手机 来 做 分 类 和 物体 识别 。 随 着 移动 端 手机 性 能 的 提高 ， 








在 移动 端 做 深度 学 习 会 有 很 大 前 景 。 
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TensorFlow 的 其 他 特性 


随 着 TensorFlow 的 版 本 不 断 迭 代 ， 目 前 它 己 经 有 很 多 新 特性 。 除 了 第 15 章 和 第 16 章 介绍 
的 XLA 和 Debugger 外 ,还 有 一 个 非常 好 的 生产 系统 使 用 模型 服务 系统 一 一 TensorFlow Serving， 
以 及 文 持 动态 图 计算 的 TensorFlow Fold。 此 外 ， 还 有 一 些 基于 人 硬件 的 优化 方法 也 是 目前 人 工 智 
能 发 展 的 趋势 。 本 章 就 来 介绍 一 下 这 些 内 容 。 



































20.1 TensorFlow Serving 








TensorFlow Serving 是 专 为 生产 环境 设计 的 一 种 灵活 、 高 性 能 的 机 器 学 习 模型 服务 系统 。 它 
非常 适合 基于 实际 情况 的 数据 大 规模 地 运行 ， 会 产生 多 个 模型 的 训练 过 程 。 

TensorFlow Serving 可 以 用 于 开发 过 程 和 生产 过 程 ， 有 以 下 两 个 主要 作用 。 

CD 对 模型 的 生命 周期 进行 管理 。 一 个 模型 一 般 是 先 数据 训练 ， 然 后 逐步 产生 初步 的 模型 ， 
随后 优化 模型 。 图 20-1 所 示 为 持续 的 模型 训练 流 。 






















































































持续 的 训练 过 程 





图 20-1 

(2) 当 模 型 采用 多 重 算法 进行 试验 时 ， 对 生成 的 模型 进行 管理 。 当 客户 端 〈Client) 向 
TensorFlow Serving 请 求 模 型 后 ，TensorFlow Severing 会 返回 适当 的 模型 给 客户 端 。 图 20-2 所 
示 为 TensorFlow Severing 架构 关系 图 。 
































© 本 节 参 考 TensorFlow 官方 网 站 文档 : https://tensorflow.github.io/serving/。 
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Serving 


模块 2 模块 1 


图 








TensorFlow Serving 


ETT 


20-2 


另外 ，TensorFlow 主要 支持 Python 和 C++， 最 近 又 增加 了 对 Java, Ruby 和 Go 的 支持 。 
但 是 ， 大 部 分 用 户 可 能 是 基于 Python API 来 构建 图 和 训练 模型 的 ， 直 接 使 用 其 他 编程 语言 访问 
模型 比较 困难 。 有 了 TensorFlow Serving 和 gRPC ， 就 可 以 提供 跨 语言 的 RPC 接口 ， 使 用 Java, 














Go 甚至 是 Ruby 都 可 以 直接 访问 这 些 模型 。 


















































TensorFlow Serving 的 代码 位 于 https://github.com/ tensorflow/serving， 安 装 过 程 可 以 采用 源 代码 
Bazel 编译 安装 ”， 或 者 采用 Docker 安装 。 具 体 的 过 程 可 以 参考 TensorFlow 官方 网 站 . 

在 第 17 章 我 们 讲解 了 通过 Kubernetes 来 实现 TensorFlow 集群 , 其 实 还 可 以 结合 TensorFlow 
Serving， 为 训练 好 的 模型 创建 一 个 Docker 镜像 ， 将 它 推送 到 Google Container Registry 上 ， 这 
样 模型 就 可 以 在 谷歌 云 平 台 (Google Cloud Platform) 上 运行 了 ， 也 就 是 说 ， 在 Kubernetes 里 成 
功 部 署 了 模型 的 服务 。 详 细 的 安装 方法 可 以 参考 TensorFlow 官方 网 站 的 “Serving Inception 
Model with TensorFlow Serving and Kubernetes " “。 另 外 ， 谷 歌 还 提供 了 Google ML Engine, iX 
是 一 个 全 托管 的 TensorFlow 平台 ， 能 把 训练 的 模型 一 键 转换 为 预测 服务 。 



































20.2 TensorFlow Flod? 
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setup.md. 
https://tensorflow.github.io/serving/setup 
https://cloud.google.com/container-registry/docs/ 


https://tensorflow.github.io/serving/serving inception 


0000 Go 


gRPC 是 谷歌 公司 开源 的 一 个 高 性 能 、 跨 语言 的 RPC H 
与 编译 安装 TensorFlow 类 似 , 安装 方法 见 https://github.com/tensorflow/serving/blob/master/tensorflow_serving/g3doc/ 








EW. 


本 节 参 考 论 文 《Deep Learning with Dynamic Computation Graphs) : https://openreview.net/pdf?id=ryrGawqex。 
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的 维度 和 尺寸 ， 划 分 为 一 批 批 的 ， 进 入 到 训练 流程 里 。 

这 种 训练 方式 称 为 “静态 图 模型 "。 它 的 缺点 在 于 ， 如 果 输 入 数据 无 法 进行 一 般 的 预 处 理 ， 
模型 就 必须 针对 不 同 的 输入 数据 建立 不 同 的 计算 图 (computation graph) 分 别 进行 训练 ， 对 处 
里 器 、 内 存 和 高 速 绥 存 都 没有 很 好 地 利用 。 

TensorFlow Fold 可 以 根据 不 同 结构 的 输入 数据 建立 动态 计算 图 (dynamic computation 
graph)， 根 据 每 个 不 同 的 输入 数据 建立 不 同 的 计算 图 。 动 态 批 处 理 (dynamic batching) 功能 会 
自动 组 合 这 些 计 算 图 , 实现 在 输入 数据 内 部 的 批 处 理 , 也 就 是 批 处 理 单个 输入 图 内 的 不 同 节点 ， 
以 及 不 同 输入 数据 之 间 的 批 处 理 ， 也 就 是 批 处 理 不 同 输入 图 之 间 的 运算 。 同 时 还 可 以 通过 插入 
一 些 附加 指令 来 在 不 同 批 处 理 操作 之 间 移 动 数 据 。 这 简化 了 模型 训练 阶段 对 输入 数据 的 预 处 理 
过 程 。 这 些 批 处 理 操作 的 优势 赋予 模型 后 ， 在 CPU 的 模型 的 运行 速度 提高 了 10 倍 以 上 ，GPU 
上 提高 了 100 倍 。 

Tensorflow 的 动态 图 计算 的 提出 被 认为 是 第 一 次 清晰 地 在 设计 理念 上 领先 其 他 深度 学 
习 框 架 。 
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20.3 TensorFlow 计算 加 速 




















使 用 TensorFlow 框架 训练 时 使 训练 加 速 的 方法 有 很 多 。 例 如 ， 可 以 通过 用 GPU 的 设备 来 
实现 , 可 以 通过 XLA 框架 对 部 分 OP 进行 融合 ， 还 可 以 采用 分 布 式 的 方式 将 计算 部 分 和 参数 部 
分 分 布 到 不 同 机 器 上 来 提升 性 能 。 同 时 ， 还 可 以 利用 硬件 来 计算 ， 如 利用 CPU 的 更 高 级 的 指令 
集 ， 如 SSE、AVX 等 ， 用 FPGA 编写 支持 TensorFlow 的 计算 单元 等 。 这 里 我 们 先 讲 解 一 下 在 
CPU 的 情况 下 如 何 进 行 优 化 ， 使 用 CPU 运行 时 可 能 出 现 哪些 警告 ， 提 出 优化 的 方向 ， 随 后 讲 
fE FPGA 的 加 速 原理 。 
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20.3.1 CPU 加速 


如 果 是 直接 采用 pip 命令 的 方式 安装 的 ， 可 能 会 报 出 以 下 警告 : 























2017-02-26 13:27:48.579303: W tensorflow/core/platform/cpu feature guard.cc:45] 
The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are 
available on your machine and could speed up CPU computations. 

2017-02-26 13:27:48.579512: W tensorflow/core/platform/cpu feature guard.cc:45] 
The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are 
available on your machine and could speed up CPU computations. 

2017-02-26 13:27:48.579519: W tensorflow/core/platform/cpu feature guard.cc:45] 
The TensorFlow library wasn't compiled to use AVX instructions, but these are 
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available on your machine and could speed up CPU computations. 
2017-02-26 13:27:48.579524: W tensorflow/core/platform/cpu feature guard.cc:45] 


The TensorFlow library wasn't compiled to use AVX2 instructions, but these are 


available on your machine and could speed up CPU computations. 
2017-02-26 13:27:48.579528: W tensorflow/core/platform/cpu feature guard.cc:45] 
The TensorFlow library wasn't compiled to use FMA instructions, but these are 


available on your machine and could speed up CPU computations. 


出 现 上 述 问 题 的 原因 是 : 为 了 尽 可 能 与 更 广泛 的 机 器 兼容 ，TensorFlow 默认 仅 在 x86 机 器 






























































上 使 用 SSE4.1 SIMD 指令 ， 而 大 多 数 现代 PC 和 Mac 都 文 持 更 高 级 的 指令 。 因 此 ， 通 过 源 代码 























安装 可 以 获得 最 大 性 能 , 可 以 开启 CPU 的 高 级 指令 集 (如 SSE, AVX) 的 支持 。 可 以 使 用 bazel 














构建 一 个 只 能 在 自己 的 机 器 上 运行 的 二 进 制 文件 ， 如 下 ; 











bazel build -c opt --copt--mavx --copt--mavx2 --copt--mfma --copt--mfpmath-both 





--copt--msse4.2 --config-cuda -k //tensorflow/tools/pip pac 





bazel-bin/tensorflow/tools/pip package/build pip package 


kage:build pip package 
/tmp/tensorflow pkg 














此 时 会 在 /tmp/tensorflow_pkg 下 产生 一 个 wheel 文件 ， 再 用 





文件 : 


20.3.2 TPU 加 速 和 FPGA 加 速 


























pip 命令 安装 这 个 wheel 


谷歌 目前 为 TensorFlow 设计 了 专用 集成 芯片 张 量 处 理 单元 (Tensor Processing Unit, TPU). 
我 们 知道 ，CPU 进行 逻辑 运算 (如 felse) 的 能 力 很 强 ， 但 是 纯粹 的 计算 能 力 与 GPU THEE 





























就 差 一 些 ， 而 深度 学 习 恰 恰 需 要 做 海量 的 计算 。 








GPU 在 一 些 场景 下 运算 速度 比 CPU 要 快 ,一 方面 是 因为 GPU 有 强大 的 浮 点 计算 单元 ,GPU 



































时 钟 周期 能 执行 的 指令 的 数量 是 千 级 别 的 , 好 的 GPU 大 约 是 3000 









































的 着 色 器 〈shader) 是 对 一 批 数 据 以 相同 的 步调 执行 相同 的 指令 流水 ， 准 确 地 讲 ，GPU 在 同一 











多 条 , 而 CPU 在 同一 时 钟 周 








期 内 能 执行 的 指令 数量 是 几 十 级 别 的 ， 因 此 远 超 CPU 指令 集 的 数据 并 行 能 力 ， 作 为 代价 就 是 











GPU fii if else 能 力 很 弱 ， 原 因 就 是 它 流水 线 并 行 能 力 ( 同 一 时 钟 周期 并 发 执行 不 同 逻 辑 序列 的 


能 力 ) 很 差 ， 它 需要 这 一 批 数据 同步 调 地 执行 同样 的 逻辑 。 












































的 操作 ， 都 是 通过 数据 并 行 可 大 幅 提高 性 能 的 。 


















































中 有 GPU 不 支持 的 指令 ，GPU 就 不 能 直接 实现 。 例 如 ， 如 果 想 要 












































而 神经 网 络 刚 好 需要 这 样 的 大 规模 数据 并 行 的 能 力 ， 尤 其 是 CNN 中 卷 积 、 和 矩阵 运算 之 类 














但 是 ， 因 为 GPU 出 三 后 架构 固定 ， 便 件 原生 支持 的 指令 就 固定 了 ， 所 以 ， 如 果 神 经 网 络 














计算 矩阵 乘法 ， 但 是 车 GPU 


只 支持 加 法 和 乘法 ， 那 就 只 能 用 软件 模拟 的 方法 用 加 法 和 乘法 来 模拟 矩阵 乘法 。 


























FPGA 的 加 速 就 在 于 , 虽然 硬件 中 可 能 有 不 支持 的 指令 , 但 是 ] 
改变 FPGA 的 硬件 结构 来 使 它 支 持 。 






































于 发 者 可 以 在 FPGA 里 编程 ， 









































那 是 不 是 GPU 支持 足够 多 的 基础 指令 , 就 能 打 平 FPGA 了 呢 ? 不 是 。FPGA 加 速 在 于 它 和 


GPU 和 CPU 的 体系 结构 就 不 同 。FPGA 不 是 冯 。 诺 伊 曼 结构 的 ， 而 是 一 个 代码 描述 的 逻辑 电 











第 20 章 TensorFlow 的 其 他 特性 << 283 























EK. FPGA 只 要 片上 逻辑 门 和 引 肢 够 多 , 全 部 输入 、 运 算 和 输出 都 在 一 个 时 钟 周期 内 完成 。FPGA 














Zt 





和 流水 


所 以 不 同 模块 也 算是 不 同 





























对 为 一 个 时 钟 周期 执行 一 次 全 部 烧 好 的 电路 ， 某 种 角度 来 说 它 一 个 模块 就 一 句 超 复杂 “指令 ”， 


























J 共存 (GPU 

















逻辑 序列 ， 并 且 这 个 序列 里 就 一 条 指令 。 单 元 间 通 信 这 些 冯 。 访 伐 曼 
结构 的 东西 对 于 FPGA 都 不 是 问题 ， Ta 所 以 才能 做 到 数据 并 行 
线 并 和 
























































流水 线 并 行 能 力 约 为 0)， 真 的 要 比 单 算 浮 点 运算 能 力 ， 当 前 常见 的 


























FPGA 不 比 GPU 好 。 因 此 ， 如 果 是 需要 低 延 迟 的 预测 推理 ， 每 批 大 小 比较 小 时 ，FPGA 更 合适 。 
而 TPU 和 FPGA 类 似 , 它 是 一 种 专用 集成 电路 (application specific integrated circuit, ASIC), 
























































但 是 便 
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逻辑 d 写 完 毕 

















就 不 可 以 再 编程 ,是 专门 为 TensorFlow 做 深度 学 习 开 发 的 。 从 TPU 





























目前 的 版 本 来 看 ， 还 不 能 完整 运行 Tensorflow 的 功能 ， 它 的 目的 是 高 效 地 完成 预测 推理 ， 还 不 
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小 结 














本 章 介 绍 了 TensorFlow 的 其 他 新 特性 ， 如 TensorFlow Serving, TensorFlow Flod， 还 介绍 了 


TensorFlow 的 硬件 加 速 方法 ， 


的 指令 由 


f. 


e 








4A FPGA 时 ， 





4; MA TPU 时 ， 它 完美 


























SF 


I 如 ， 当 计算 机 只 有 CPU 时 ， 开 发 人 员 可 以 利用 CPU 的 更 高 级 
开发 人 员 可 以 在 FPGA 里 编程 ， 改 变 硬件 结构 来 支持 神经 网 络 的 指 
邮 支 持 TensorFlow 的 所 有 运算 ， 效 率 最 高 。 
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当 我 们 训练 完 一 个 模型 之 后 ， 如 何 评价 这 个 模型 的 好 坏 呢 ? 准确 率 是 一 个 评价 标准 ， 
但 它 仅 仅 是 相对 于 这 个 模型 对 测试 集 的 预测 结果 。 抛 开 这 些 ， 如 何 看 待 这 个 模型 在 解决 语 
音 或 图 像 的 某 个 具体 问题 时 是 否 能 发 挥 作 用 呢 ? 这 就 涉及 评价 模型 的 性 能 指标 。 本 章 主要 
讲解 人 脸 识别 和 智能 聊天 机 器 人 的 性 能 指标 , 以 及 机 器 翻译 的 评价 方法 和 第 用 的 通用 评价 
指标 。 


































































































21.1 人 脸 识别 的 性 能 指标 


人 脸 识 别 的 主要 性 能 指标 包括 鉴别 性 能 和 验证 1 

d) 鉴别 性 能 就 是 指 是 否 鉴别 准确 。 有 具体 性 能 指标 有 以 下 几 个 。 

e Top-K 识别 率 : 就 是 在 给 出 的 前 K 个 结果 中 包含 正确 结果 的 概率 。 

e 错误 拒绝 辨识 率 〈FNIR): 指 注 册 用 户 被 系统 错误 辨识 为 其 他 注册 用 户 的 比例 。 

e 错误 接受 辨识 率 〈FPIR): 非 注册 用 户 被 系统 辨识 为 某 个 注册 用 户 的 比例 。 

(2) 验证 性 能 是 指 验证 人 脸 模 型 是 否 足 够 好 。 人 性 能 指标 主要 有 以 下 两 个 。 

e 误 识 率 (False Accept Rate, FARO: 就 是 将 其 他 人 误 作 指定 人 员 的 概率 。 

e 拒 识 率 (False Reject Rate, FRR): 就 是 将 指定 人 员 误 作 其 他 人 员 的 概率 。 

除 此 之 外 ， 还 有 识别 速度 〈 识 别 一 副 人 脸 图 像 的 时 间 、 识 别 一 个 人 的 时 间 )、 注 册 速 度 〈 计 
册 一 个 人 的 时 间 ) 等 衡量 人 脸 识别 技术 的 指标 。 
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21.2 ”聊天 机 器 人 的 性 能 指标 


如 何 对 聊天 机 器 人 智能 程度 进行 评价 是 一 项 挑战 。 目 前 采用 的 通用 的 客观 评价 标准 有 : 
回答 正确 率 、 任 务 完 成 率 、 对 话 回合 数 、 对 话 时 间 、 系 统 平 均 响应 时 间 、 错 误 信 息 率 等 ， 
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但 是 评价 的 基本 单元 是 单 轮 对 话 。 同 时 ， 由 于 人 机 对 话 过 程 是 一 个 连续 的 过 程 ， 输 入 首 句 
后 对 话 展 开 ， 不 同系 统 的 回复 不 尽 相 同 ， 因 此 不 能 简单 地 将 连续 对 话 切 分 成 单 轮 对 话 去 评 
价 。 因 此 ， 在 形成 客观 标准 之 前 ， 设 计 合 理 的 人 工 主 观 评价 也 是 对 聊天 机 器 人 智能 程度 评 
价 标准 的 补充 。” 

一 个 好 的 聊天 机 器 人 应 该 具有 以 下 特点 。 

(1) 机 器 人 的 答 句 和 用 户 的 问 名 应 该 语义 一 致 ， 语 法 正确 ， 并 且 逻 辑 正确 。 

(2) 机 器 人 的 答 名 应 该 是 有 趣 的 、 多 样 的 ， 而 不 是 一 直 产 生 一 些 安全 回答 ， 如 “好 呀 ”是 
呀 ”之 类 。 

在 这 两 个 特点 上 ， 微 软 小 冰 就 表现 得 很 好 。 我 常常 用 一 句 重复 的 话 喜 它 ， 但 它 回复 非常 多 
样 而 且 有 趣 ， 有 时 候 甚至 还 会 “训斥 ”我 总 是 重复 一 句 话 ， 并 且 还 能 给 出 图 片 、 各 种 角度 的 多 
样 回 答 ， 能 够 对 话 多 轮 ， 而 不 会 重复 答 句 ， 给 人 对 方 词 穷 的 感觉 。 例 如 ， 图 21-1 给 出 的 是 我 和 
小 冰 的 一 次 对 话 。 


e as 

^- 

hd ， 你 去 吃饭 了 ? 

m 我 赚 的 都 发 出 去 了 。 BERR » p e 

ES à m (B 3xtSiEhightl Rd e—— 

对 路 你 骗 人 。 OBRSSARUR » p ö 

LI v 你 这 么 说 话 好 想 接 你 ! E 祝 你 万 事 如 意 ! 家 许 幸 福 。 

祝 新 的 一 年, 芝麻 开花 节 节 高 BRUSH F1 p e 
Ea I^] m IBS (FA EFI T DER 

祝 你 新 年 财源 滚滚 滚 不 停 呀 ORIS » Ld e 
LH e E 和 你 没 话说 了 , 走 开 ! E 鸡 年 新 愿望 : 你 好 我 好 大 家 都 好 
BRING e m 过 年 了 也 不 来 个 红包 表示 一 下 E 恭喜 发 财 , 招 财 进 宝 ! 


21-1 
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抢 了 多 少 红包 呀 ? 


ze; 


20i 











事实 上 ， 即 使 是 祝福 语 ，20 多 轮 对 话 的 多 样 性 也 是 令 人 咋舌 的 。 我 还 尝试 过 其 他 产品 ， 
复 问 句 ， 带 来 的 回答 往往 都 是 “谢谢 ,你 也 是 ”或 者 “也 视 你 生日 快乐 ”这 样 不 搭 边 的 回答 ， 
并 且 在 三 四 轮 对 话 后 ， 机 器 人 就 产生 重复 回答 了 。 

(3) 机 器 人 应 该 “个 性 表达 一 致 "。 它 的 年 龄 、 号 份 、 出 生地 等 基本 背景 信息 以 及 爱好 、 
语言 风格 应 该 一 致 ， 能 让 人 把 它 想 象 成 一 个 典型 的 人 。 例 如 ， 微 软 小 冰 关 于 性 别 的 回答 ， 在 多 
名 会 话 中 有 些 不 一 致 ， 但 总 体 上 个 性 是 一 致 的 ， 如 图 21-2 所 示 。 
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© 这 段 内 容 参 考 http:/sanwen.neta/hkhptbo.html， 发 表 在 《中 国人 工 智 能 学 会 通讯 》2016 年 第 6 卷 第 1 期 上 。 
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21.3 ”机 器 翻译 


现在 机 器 翻译 方法 越 来 越 多 ， 那 么 如 何 评价 一 
[评测 的 方法 ， 在 得 到 翻译 
后 统计 平均 分 。 这 种 方法 存在 两 个 问题 ， 

打分 ， 也 无 法 保证 打分 


最 初 是 用 人 了 





下 





掉 我 们 就 来 介 








n. Es E 
CQ  menmoccett2uswe 

aj, 

Ri 你 见 过 这 么 可 爱 的 男孩 子 嘛 1 ! 
aj, 
hi TOIRTE, 

y 
Ri BAIRI? 


Ri 最 讨厌 别人 一 句 话说 好 几 遍 了 曾 
AS, 


你 是 男生 还 是 女生 ?家 Ww 你 都 知道 了 还 问 ? 








RUE — $5 
站 绍 两 种 自动 评 





21.3.1 BLEU 





ix Hi 

















提出 的 。BLEU 是 Bilingual Evaluation Understudy 的 英文 缩写 。 它 的 核心 思想 是 : 


的 BLEU (bilingual evaluation understudy) 方法 是 在 2002 年 由 IBM BI? i 


图 





的 评价 方法 


一 是 


二 是 打分 周 
价 方法 。 


句 与 人 类 的 专业 翻译 语句 越 接近 就 越 好 。 


这 个 自动 订 





5 
x. 。 我 选择 狗 带 1 1 1 
ve 
«4 
Ri 问 这 种 问题 , ALR 
vid 
d " EAE 
I REHE, sertum) 
— 
i 汉子 有 叫 我 这 个 名 字 的 么 需 
C 
Ri 别 说 我 了 , 不 如 说 说 你 吧 
AS, 
21-2 


个 机 器 翻译 方法 的 好 
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e 


ð 


» 


ð 


坏 呢 ? 








结果 后 ， 请 专家 来 为 每 个 句 

















期 让 系统 迭代 的 周期 变 长 。 





子 的 翻译 结果 打分 ， 然 





1 两 批 专家 打分 ， 即 使 一 批 专家 给 两 个 翻译 结果 





























2t 心 
机 器 翻译 语 


F 价 方法 与 人 工 评价 高 度 相关 。 我 们 把 正确 的 句子 叫 作 参考 译文 (reference)， 也 


称 正确 句子 (golden sentence)， 测 试 的 句子 叫 作 候选 译文 (candidate )， 这 种 方法 适用 于 一 个 测 


WEE 


我 们 比较 参考 译文 与 候选 译文 


词 或 字 ) 


配 的 N 元 组 的 个 数 与 参考 译文 








与 


H.H. 








了 多 个 参考 译文 的 情况 。 

















FP 相同 的 片段 的 数量 , 用 参考 译文 中 连 





续 出 现 的 元 组 CN 个 单 








蜂 选 译文 中 出 现 的 元 组 进行 比较 ， 也 称 为 n 单位 片段 (n-gram) 比较， 计算 完全 [四 








PN 元 组 的 总 个 数 的 比例 ， 








这 些 匹配 片段 与 它们 在 文字 中 存在 的 位 





置 无 关 。 匹 配 片段 数 越 多 ， 则 待 评价 的 候选 译文 的 质量 越 好 。 因 此 ，BLEU 得 分 越 高 翻译 质量 越 好 。 
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21.3.2 METEOR 





METEOR 是 男 一 个 用 来 评价 机 器 翻译 输出 质量 好 坏 的 方法 。 与 BLEU 不 同 ， 
选 译文 在 整个 句子 上 ， 而 且 在 句子 的 分 段 级 别 上 ， 也 要 与 参考 译文 的 更 接近 。 

我 们 来 看 维基 百科 上 的 一 个 例子 ”。 
一 个 平面 图 ， 如 图 21-3 所 示 。 
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the cat sat on the mat 


the cat sat on the mat 


on the mat sat the cat on 


图 21-3 


the mat sat the cat 








在 待 评价 翻译 














的 每 个 一 元 组 必须 映射 到 参考 翻译 


















































左 侧 的 会 被 选中 。METEOR 得 分 越 高 质量 越 好 。 














METEOR 方法 在 待 评价 字符 串 和 参考 字符 串 之 间 创 


中 的 1 个 或 0 个 一 元 组 ， 如 果 有 
面 图 的 映射 数量 相同 (如 图 21-3 所 示 ), 那么 选择 映射 交叉 数目 较 少 的 那个 。 也 就 是 说 
图 21-4 所 示 为 维基 百科 上 面 的 比较 结果 。 


它 不 仅 要 求 候 








oos 
Tr 


两 个 平 
， 图 21-3 





























Examples [edit] 


Reference the cat sat on the mat 
Hypothesis on the mat sat the cat 


Score: 0.5000 = Fmean: 1.0000 * (1 - Penalty: 0.5000) 

Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) 
Penalty: 0.5000 = 0.5 * (Fragmentation: 1.0000 ^3) 

Fragmentation: 1.0000 - Chunks: 6.0000 / Matches: 6.0000 


Reference the cat sat on the mat 
Hypothesis the cat sat on the mat 


Score: 0.9977 - Fmean: 1.0000 * (1 - Penalty: 0.0023) 

Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) 
Penalty: 0.0023 - 0.5 * (Fragmentation: 0.1667 ^3) 

Fragmentation: 0.1667 - Chunks: 1.0000 / Matches: 6.0000 


Reference the cat sat on the mat 


Hypothesis the cat was sat on the mat 


Score: 0.9654 - Fmean: 0.9836 * (1 - Penalty: 0.0185) 

Fmean: 0.9836 - 10 * Precision: 0.8571 * Recall: 1.0000 / (Recall: 1.0000 * 9 * Precision: 0.8571) 
Penalty: 0.0185 - 0.5 * (Fragmentation: 0.3333 ^3) 

Fragmentation: 0.3333 - Chunks: 2.0000 / Matches: 6.0000 














图 21-4 


21.4 ”常用 的 通用 评价 措 标 


对 于 深度 学 习 的 分 类 程序 来 说 ， 常 用 的 评价 指标 有 准确 率 、 召 回 率 、F fü. 
FI mAP 等 。 准确 率 、 召回 率 和 下 值 过 于 简单 , 这 里 就 不 蒙 述 ,下 



















































































(D https:/en.wikipedia.org/wikiMETEOR#Algorithm 


ROC、AUC、AP 
看 主要 讲 ROC、AUC、 AP 和 mAP。 


B 
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21.4.1 ROC #0 AUC 


ROC (Receiver Operating Characteristic, 
受 试 者 工作 特征 曲线 ) 和 AUC (Area Under 
roc Curve， 曲 线 下 面积 ) 是 评价 分 类 器 的 指 
标 。 图 21-5 展示 的 是 摘自 维基 百科 的 ROC 
曲线 示例 。 如 图 21-5 所 示 ，ROC 曲线 的 横 坐 
ERX FPR (False positive rate)， 纵 坐标 为 TPR 
(True positive rate), ROC 曲线 越 接近 左上 角 ， 
分 类 器 的 性 能 就 越 好 。 

AUC 是 ROC 曲线 下 方 的 那 部 分 面积 的 
大 小 。 通 常 ,ROC 曲线 一 般 都 处 于 y=x 这 条 ” 02 


































































































True positive rate 






































NetChop C-term 3.0 









































直线 的 上 方 ， 因 此 AUC 的 值 介 于 0.5 和 1.0 一 一 TAP+ProteaSMM-i 
之 间 ，AUC 的 值 越 大 表示 性 能 越 好 。 有 一 些 专 ProteaS MM-i 

0 l 1 1 1 1 f 1 1 
门 的 AUC 计算 工具 ， 参 见 http://mark.goadrich. 0.2 04 0.6 0.8 1 





False positive rate 


com/programs/AUC/., 图 21.5 





21.4.2 AP 和 mAP 





























在 计算 机 视觉 中 ， 尤 其 在 分 类 问题 中 ，AP (average precision， 平 均 准 确 性 ) 是 模型 分 类 能 
力 的 重要 指标 。 如 果 单 纯 用 P (precision rate, EMK) 和 及 (recall rate, AEK) 来 评价 ， 组 
成 的 PR 曲线 有 一 个 趋势 就 是 ， 召 回 率 越 高 准确 率 越 低 。AP 指 这 个 曲线 下 的 面积 ， 等 于 对 召回 
率 做 积分 ， 而 mAP (mean average precision， 平 均 准 确 性 平均 ) 也 是 为 了 解决 准确 率 、 召 回 率 、 
F 值 的 单 点 值 局 限 性 的 ， 它 对 所 有 类 别 分 别 取 平均 ， 把 每 一 个 类 当 作 一 次 二 分 类 任务 。 目 前 的 
图 像 分 类 论文 基本 都 是 用 mAP 的 高 低 作为 分 类 好 坏 的 标准 。 






























































































































































21.5 小结 


本 章 介 绍 了 机 器 学 习 的 评测 体系 。 包 括 “ 实 战 篇 ”中 人 脸 识别 的 性 能 指标 、 聊 天 机 器 人 的 性 能 
旧 标 ， 以 及 机 器 翻译 的 评价 方法 。 另 外 ， 还 介绍 了 几 个 常用 的 通用 评价 指标 ， 即 ROC、AUC、AP 
和 mAP。 但 是 ， 对 一 个 具体 的 行业 应 用 来 说 ， 性 能 指标 和 评价 方法 不 是 一 成 不 变 的 ， 随 着 模型 准 
确 率 和 召回 率 的 提高 ， 对 模型 的 评价 维度 也 会 更 全 面 ， 读 者 可 以 多 多 关注 相关 科研 成 果 。 





































































































(D https://en.wikipedia.org/wiki/Receiver operating characteristic#/media/File:Roccurves.png 





























为 了 方便 读者 进行 更 多 实践 ， 本 附录 给 读者 介绍 一 些 可 用 
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A1 图 片 数据 集 














ImageNet 是 目前 世界 上 最 大 的 图 像 识 别 数据 集 ， 包 含 14197122 张 图 像 ， 




















斯 坦 福 大 学 视 











觉 实验 室 终身 教授 李 飞 飞 创 立 。 每 年 的 ImageNet 大 赛 是 国际 上 计算 机 视觉 的 顶 
COCO 是 微软 创立 的 用 于 分 割 和 加 字幕 标注 的 数据 集 。 其 主要 特征 如 下 
e 目标 分 割 ; 

e 通过 上 下 文 进 行 识 别 ; 
e 每 个 图 像 包 含 多 个 目标 对 象 ; 
e 超过 300000 个 图 像 ; 
e 超过 2000000 个 实例 ; 
e 80 种 对 象 ; 

e 每 个 图 像 包 含 5 个 字幕 ; 

e 包含 100000 个 人 的 关键 点 。 

CIFAR”(Canada Institude For Advanced Research) 是 由 加 拿 大 先进 技术 研究 
















































































级 赛事 。 


院 收集 的 8 000 

















万 小 图 片 的 数据 集 。CIFAR 包含 CIFAR-10 和 CIFAR-100 两 个 数据 集 。Cifar10 





1.60 000 张 32 























x32 的 RGB 彩色 图 片 构成 , 共 10 个 类 别 , 50 000 张 训练 , 10 000 张 测试 (交叉 验证 )。 CIFAR-100 























60 000 张 图 像 构成 ， 包 含 100 个 类 别 ， 每 个 类 别 600 张 图 像 ， 其 





LY 





























rH 500 张 用 于 训练 ，100 张 用 























于 测试 。 其 中 这 100 个 类 别 又 组 成 了 20 个 大 的 类 别 ， 每 个 图 像 包 含 小 类 别 和 大 类 别 两 个 标记 。 





(D http://www.image-net.org/ 
© http://mscoco.org/ 
@  https//www.cifar.ca/ 
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开 数 据 集 


A.2 ”人 脸 数据 集 


AFLW^ (Annotated Facial Landmarks in the Wild) fi 
的 大 规模 集合 ， 包 括 了 各 种 姿态 、 表 情 、 





像 


大 约 包括 25 000 万 手工 标注 的 人 脸 图 
41% 为 男性 。 该 数据 及 
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fj, 59%% tr t 
面 的 研究 。 
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片 ，1 680 ^ Afi 
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形 很 不 稳定 ， 会 
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等 )、 年 龄 等 方面 的 影 
































GENKI 数据 


GENKI-SZSL 三 个 部 分 ， 
像 ， 分 为 “ 笑 ” 和 “不 笑 ” 两 
做 笑脸 识别 。GENKI-SZSL 包含 3 500 个 图 像 ， 这 些 





置 、 个 人 身份 和 利 


VGG Face 数据 集 包含 了 2 622 个 不 同 的 人 , 每 个 人 包含 1 000 张 图 片 ,是 一 个 训练 人 脸 i 











别 的 大 的 数据 集 。 





大 规模 名 人 人 脸 标 注 
人 ，202 599 张 名 人 图 
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Labeled Faces in the Wild Home (LFW) 数据 集 
成 的 。 它 包含 13 233 张 
片 多 于 一 张 ， 主 要 用 
看 部 表情 、 观 察 角 度 、 久 
响 。 现 在 已 经 成 为 学 术 界 评价 识别 性 能 的 标 # 
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非常 适合 
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每 个 





已 亚 大 学 收集 的 。 该 数据 集 
GENKI-R2009a 包含 11 159 个 
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H 
AE 


图 片 ， 共 5 749 个 人 ， 其 中 4 096 个 人 
究 非 受 限 情形 下 的 人 脸 识别 问题 ， 
GRAZIR BARAM WA E RR 
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供 从 Flickr 收集 


ET 21 个 特征 点 ， 
识别 、 人 脸 检 测 、 人 脸 对 齐 等 






































的 带 标注 的 面部 图 
年 龄 等 因素 影响 的 图 片 ， 
图 像 大 多 数 是 彩 














由 美 








国 马萨诸塞 大 学 阿 姆 斯 4 




















E (benchmark). 
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像 ， 每 张 


A.3 ”视频 数据 集 


YouTube-8M 数据 集 是 一 个 不 错 的 视频 数据 集 
有 视频 标注 。 





表 50 万 小 时 长 度 
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http://lrs.icg.tugraz 


€ & eaoo2o 


.at/research/aflw/ 


http://vis-www.cs.umass.edu/lfw/ 


http://mplab.ucsd.edu 


图 像 都 有 




















http://www.robots.ox.ac.uk/-vgg/data/vgg face/ 
http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html 
https://research.google.com/youtube8m/ 
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片 包括 广泛 的 





BAR 
因为 人 脸 的 外 
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4- GENKI-R2009a, GENKI-«K 和 
图 片 ，GENKI-4K 包含 4 000 个 
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E 了 和 角度， 专门 用 
光照 条 件 、 地 ] 


























里 位 





数据 集 CelebA" (Large-scale CelebFaces Attributes) 包含 10 177 个 名 
| 40 个 属性 标注 


含 了 800 万 个 YouTube 视频 的 URL， 代 
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A.4 问答 数据 集 


MS MARCO” (Microsoft MAchine Reading Comprehension) 是 微软 发 布 的 一 个 包含 10 万 
个 问题 和 答案 的 数据 集 ， 研 究 者 可 以 使 用 这 个 数据 集 来 创造 能 够 像 人 类 一 样 阅读 和 回答 问题 的 
系统 。 这 个 数据 集 是 基于 匿名 的 真实 数据 构建 的 。 

康 奈 尔 大 学 电影 对 白 数据 集 有 超过 600 部 好 莱 坞 电影 的 对 白 。 




















































































































A.5 自动 驾驶 数据 集 


法 国 国家 信息 与 自动 化 研究 所 行人 数据 集 ”(INRIA Person Dataset)， 这 个 数据 集 是 作为 图 
像 和 视频 中 直立 人 检测 的 研究 工作 的 一 部 分 收集 的 ， 里 面 的 图 片 分 为 两 种 格式 : 一 种 是 具有 对 
应 注释 文件 的 原始 图 像 ， 另 一 种 是 具有 原始 负 像 的 经 过 正规 化 处 理 后 的 64 X 128 像素 正 像 。 图 
片 分 为 只 有 车 、 只 有 人 、 有 车 有 人 和 无 车 无 人 4 个 类 别 。 

KITT? (Karlsruhe Institute of Technology and Toyota Technological Institute) 是 一 个 车 辆 数 
据 集 ， 包 含 7481 个 训练 图 片 和 7 518 个 测试 图 片 。 该 数据 集中 标注 了 车 辆 的 类 型 、 是 否 截 断 、 
遮挡 情况 、 角 度 值 、 二 维和 三 维 框 、 位 置 、 旋 转角 度 等 重要 的 信息 。 





















































































































































































































































A.6 年龄、 性 别 数据 集 


Adience 数据 集 来 源 为 Flickr 相册 ， 由 用 户 使 用 iPhones 或 者 其 他 智能 手机 设备 拍摄 ， 
片 包含 2 284 个 类 别 和 26 580 张 图 片 ， 并 且 保留 了 光照 、 姿 势 、 噪 声 的 影响 ， 是 在 做 性 别 、 年 
龄 估计 和 人 脸 检 测 中 运用 算法 时 进行 基准 测试 的 一 个 数据 集 。 

除 以 上 这 些 数据 集 外 , 还 有 非常 多 的 公开 数据 集 , 读者 可 以 自己 用 搜索 引擎 去 研究 和 探索 。 
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http://www.msmarco.org 
https://www.cs.cornell.edu/-cristian/Cornell Movie-Dialogs Corpus.html 
http://pascal.inrialpes.fr/data/human/ 

http://www.cvlibs.net/datasets/kitti/ 
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http://www.openu.ac.il/home/hassner/Adience/data.html 
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终于 到 本 书 的 最 后 部 分 了 , 相信 通过 前 面 的 学 习 你 已 经 对 TensorFlow 的 基础 知识 和 实战 了 
解 得 很 全 面 了 ， 那 就 快 快 动手 结合 自己 的 业务 实现 一 个 Demo 吧 。 作 为 一 个 技术 人 员 ， 你 也 不 
可 避免 地 会 遇 到 职场 上 的 管理 和 流程 问题 ， 而 且 随 着 工作 年 限 的 提高 ， 你 可 能 早晚 都 要 做 一 个 
纯 管 理 者 或 者 技术 管理 者 ， 或 者 是 一 个 被 别人 经 常 请 教 技 术 方案 的 人 。 本 章 我 就 说 一 些 在 工作 
中 的 项 目 管理 经 验 。 








































































































































































































B.1 管理 的 激进 与 保守 问题 


技术 管理 人 员 在 设计 技术 架构 及 人 员 管 理 的 时 候 ， 往 往 会 有 两 种 风格 一 一 激进 派 和 保守 
派 。 下 面 我 来 说 说 这 两 种 风格 的 特点 ， 以 及 作为 技术 管理 人 员 ， 如 何 针对 具体 的 项 目 ， 用 不 同 
的 风格 来 扬长 避 短 。 








































































































B.1.1 激进 派 


这 种 风格 表现 在 : 项 目 上 追求 快速 完成 ， 不 太 注 重 项 目 持久 性 。 这 种 风格 的 优点 是 ， 一 个 
新 点 子 往往 能 迅速 上 线 ， 但 次 端 更 
这 样 的 管理 者 开头 和 分 配 任务 的 方式 往往 是 一 样 的 : 

“小 A, 小 B, d C, 快 快 快 , 在 这 儿 开 个 会 . 我 们 要 做 一 个 XXX， 就 是 实现 个 XXX， 
小 A， 你 做 A 部 分 ， 小 B 你 做 B 部 分 ， 小 C 你 做 C 部 分 。 我 们 这 个 项 目 ，2 A, F 
发 完 ， 交 给 测试 。 测 试 一 两 天 就 应 该 能 测 完 。10 ARER.” 

然后 ， 小 A、 小 B、 小 C 回 到 工 位 ， 开 始 火 急 火 炼 地 开发 。 不 ， 开 始 火 急 火 烘 地 
研究 需求 ， 设 计 系 统 方案 ， 最 后 开始 编码 。 

然后 ， 真 正 到 2 周 了 ， 其 实 也 开发 完了 ， 交 付 给 测试 后 ， 会 出 现 很 多 问题 ， 然 后 
他 们 分 别 拼命 收 。 终 于 在 最 后 期 限 一 一 10 月 底 上 线 了 ， 可 是 ， 给 用 户 一 用 ， 发 现 好 多 
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问题 ， 紧 急 修 复 ， 紧 急 ， 紧 急 ， 身 后 一 背 虚 汗 。 
这 样 的 开发 方式 ， 浆 端 在 哪里 呢 ? 
首先 ， 因 为 留 给 基层 开发 人 员 的 时 间 很 短 ， 所 以 开发 人 员 在 开发 时 无 法 深入 地 对 系统 架 
构 有 整体 的 思考 ， 并 且 因 为 时 间 紧 迫 ， 开 发 人 员 都 是 “ 吃 技术 老 本 ”来 完成 这 个 项 目 ， 没 有 
从 项 目 中 学 到 新 东西 ， 也 没有 获得 太 大 的 成 长 。 比 如 ， 之 所 以 让 小 A 负责 A， 小 B 负责 B， 
小 C 负责 C， 是 因为 这 部 分 是 他 们 各 自 的 擅长 领域 ， 开 发 人 员 在 技术 上 做 的 是 “重复 的 机 械 
性 的 ”工作 。 
其 次 ， 上 线 后 会 有 各 种 诡异 问题 。 这 是 因为 ， 开 发 时 对 所 有 的 逻辑 没有 想 全 ， 项 目 周期 紧 
张 ， 测 试 人 员 也 是 在 测试 当天 前 后 才 了 解 到 这 个 项 目 ， 对 项 目的 整体 功能 把 握 不 透彻 ， 就 完全 
依赖 开发 人 员 的 描述 进行 测试 。 一 些 异 常 状态 以 及 跟 之 前 系统 可 能 有 的 交互 的 影响 未 考虑 到 ， 
导致 很 多 不 易 察觉 的 错误 上 线 后 才 发 现 。 这 时 ， 留 给 开发 人 员 的 活 儿 就 是 在 线 上 定位 和 修改 
bug。 因 为 这 种 问题 往往 是 没有 很 明显 复 现 条 件 的 ， 所 以 定位 问题 的 难度 很 大 。 这 时 开发 人 员 
就 要 重新 梳理 一 遍 自己 的 开发 逻辑 ， 从 中 发 现 可 能 的 问题 。 

再 次 ， 由 于 时 间 紧 张 ， 开 发 人 员 往 往 不 写 “设计 文档 ” 这 对 后 期 接手 人 员 的 工作 带 来 很 
大 困难 。 万 一 开发 人 员 变 动 或 者 离职 ， 接 手 人 员 有 时 就 得 重头 “ 哨 ” 代 码 ， 或 者 自己 另 写 一 套 
代码 维护 。 

我 称 这 种 项 目 管理 方式 叫 作 “ 走 2 步 ， 退 1 步 半 ” 因此 ， 开 发 的 时 候 ， 好 像 很 迅速 ， 一 
个 系统 可 能 2 周 左右 就 开发 完成 ， 然 后 上 线 ， 管 理 人 员 和 一 线 开 发 人 员 都 皆大欢喜 ， 发 邮件 抄 
送 全 组 祝贺 。 可 是 ， 后 续 发 现 ， 问 题 维护 成 本 也 很 高 ， 大 松 也 需要 1 周 半 的 时 间 去 维护 系统 的 
遗留 问题 ， 这 些 遗 留 问题 被 测试 人 员 或 者 用 户 发 现 后 ， 往 往 也 需要 一 定 的 沟通 成 本 来 描述 和 定 
位 。 最 重要 的 是 ， 问 题 发 生 在 线 上 后 ， 影 响 了 公司 的 品牌 和 声誉 。 

这 种 开发 模式 对 “ 熟 手 ”工程 师 来 说 可 能 成 长 不 大 ， 而 对 “ 生 手 ”工程 师 来 说 ， 这 种 模式 
会 倒 逼 他 在 某 个 时 间 点 完成 一 项 任务 ， 在 技术 应 用 上 学 习 和 成 长 是 很 快 的 。 但 即使 “ 熟 手 ” 也 
会 出 现 上 述 问题 ， 是 因为 技术 本 领 的 熟练 ， 不 足以 应 对 开发 这 个 系统 时 需要 的 团队 配合 以 及 考 
虑 系统 上 下 游 的 关系 的 问题 ， 因 为 你 做 的 很 多 设计 ， 可 能 和 你 搭档 的 工程 师 并 不 知道 ， 或 者 在 
整个 系统 中 并 不 必要 。 因 此 ， 有 的 时 候 你 不 能 走 得 太 快 ， 否 则 会 遗失 很 多 东西 ， 到 时 候 还 得 补 
回来 。 
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B.1.2 保守 派 

保守 派 和 激进 派 的 做 法 几乎 完全 相反 。 下 面 我 就 举 个 例子 来 描述 保守 派 项 目 管理 的 开发 流 
程 。 例 如 ， 产 品 经 理想 给 产品 新 加 一 个 功能 ， 他 可 能 面临 如 下 步骤 。 

(1) 直接 找到 对 应 的 技术 人 员 去 沟通 。 

(2) 技术 人 员 同 意 添加 ， 并 有 能 够 解决 问题 的 技术 方案 。 但 是 ， 不 要 以 为 技术 人 员 就 可 以 
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直接 干 活 写 代码 了 ， 因 为 技术 人 员 的 上 级 还 不 知道 这 件 事 情 ， 所 以 这 个 技术 





这 个 技术 人 员 的 工作 排 期 。 























确认 沟通 内 容 ， 这 样 ， 沟 通 
(3) 若 技 术 人 员 认 为 这 个 
要 上 报到 双方 经 到 

















时 间 资 源 《“ 即 排 期 ) 去 做 。 因 此 ， 需 要 再 向 技术 主管 确认 这 个 功能 是 否 要 添 
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满 完 成 。 














问题 太 复杂 ， 这 个 功能 就 暂时 被 
的 KPI 导向 可 能 不 一 致 ， 这 也 可 能 会 导致 新 功能 被 搁置 。 
































后 ， 需 要 产品 经 理发 出 邮件 ， 抄 送 对 应 的 技术 





人 员 还 没有 相应 的 
加 ， 以 及 主管 安排 
人 员 和 双方 主管 ， 
























































而 到 了 真正 开始 项 目 开 发 的 时 候 ， 保 守 派 一 般 会 有 1 一 2 个 工程 师 参与 
经 理 一 起 开会 ， 对 设计 文档 的 实现 点 逐个 讨论 ， 逐 个 达成 一 致 ， 然 后 确保 在 考 
虑 上 没有 足 忽 和 遗漏 ， 才 开始 写 代码 。 


文档 ” 

















和 项 目 






































B.1.3 ”保守 派 和 激进 派 的 区 别 


保守 派 和 激进 派 最 大 的 区 别 在 于 ， 保 守 派 在 向 前 推进 项 目的 每 一 步 ， 都 
方式 传达 给 合 

















E 方 ， 包 括 每 一 次 沟通 的 内 容 及 沟通 的 结论 ， 并 且 倾 向 于 在 开 





计 方案 全 部 整理 好 ， 细 化 到 任何 一 个 步骤，j 
比较 倾向 于 口头 和 对 方 讨 论 和 沟通 ， 并 立刻 投入 功能 实现 中 ， 在 最 后 上 线 时 













































































功能 没有 必要 ， 或 者 添加 这 个 功能 的 技术 复杂 度 很 高 。 他 们 就 需 
处 进行 协商 ， 而 协商 的 结果 则 要 视 问 题 的 复杂 度 及 各 自 的 
阁 置 了 ， 也 有 可 能 产品 和 技术 虽然 都 负责 一 


KPI 来 定 。 有 可 能 
个 项 目 ， 但 是 两 边 



































， 详 细 写 出 “设计 














倾向 以 “邮件 ”的 


发 前 就 把 完整 的 设 

















让 参与 的 工程 师 都 知晓 。 



































激进 派 则 不 同 ， 他 
发 邮件 庆贺 ， 并 上 















































倾向 于 每 个 人 独立 负责 自己 的 那 一 部 分 ， 需 要 部 分 之 间 衔接 时 ， 才 去 两 人 私 
式 ， 所 以 常常 也 考虑 不 到 对 整个 系统 或 者 其 他 工程 师 手 头 工 作 的 影响 。 


这 两 种 管理 
























































方式 我 们 在 同一 家 公司 的 不 同 项 目 管理 者 身上 经 常 能 看 到 。 




















下 讨论 ， 因 为 不 正 


但 本 质 上 ， 这 两 种 




















方式 都 一 定 程 度 上 损失 了 公司 效率 。 其 实 ， 稍 微 理 想 一 些 的 方式 应 该 是 下 面 这样 的 。 
技术 经 理 在 平时 的 工作 中 ， 就 对 自己 负责 的 产品 有 深刻 的 理解 ， 能 够 主 


功能 ， 并 且 对 系统 架构 有 


时 就 督 

















从 技术 
对 这 个 ] 


上 线 之 后 “ 坑 ” 也 很 少 。 同 时 ， 能 够 分 辨 出 哪些 项 目 是 可 以 很 快 完成 的 ， 哪 
计 方案 的 ， 做 项 目的 步骤 中 出 现 问题 ， 及 时 与 开发 人 员 沟通 ， 而 不 是 





度 给 











促 一 线 开 发 人 员 做 好 系统 优化 。 在 
技术 选 型 和 实现 方案 ， 并 外 

































































深刻 的 了 解 ， 能 够 知道 自己 目前 维护 的 系统 的 优势 



































动 提 出 需要 改进 的 
和 不 足 在 哪里 ， 平 























面 对 新 需求 时 ， 能 从 产品 角度 给 出 






























































E 拉 上 测试 人 员 及 早 接 入 了 解 项 






































项 目 有 全 局 的 把 控 ， 对 开发 节奏 就 有 合理 的 排 期 ， 选 择 适 当 的 团队 成 



























































新 需求 的 建议 ， 能 
。 这 样 ， 就 能 做 到 
员 进 行 开 发 ， 并 
些 项 目 是 需要 一 起 
总 看 着 开发 人 员 ， 




































































讨论 设 i 
让 他 们 自己 沟通 解决 。 
这 就 对 技术 管 到 
进 型 ” 和 “保守 型 ”的 管理 风格 相互 融合 ， 





的 选择 和 规划 开发 计划 能 够 提供 很 好 的 合理 保证 。 因 此 ， 实 际 上 ， 技 术 管 理 





















































团队 的 领导 者 应 该 兼 具 这 两 种 风 













































































人员 的 要 求 很 高 ， 需 要 技术 管理 人 员 不 断 地 钻研 业务 和 团队 的 技术 。“ 激 











格 ， 这 对 技术 方案 
者 的 门槛 应 该 是 很 


高 的 ， 他 除了 技术 过 硬 外 ,还 需要 足够 了 解 业务 本 质 , 足够 了 解 手头 的 技术 架构 的 重点 和 难点 ， 














知道 将 来 的 部 署 方向 ， 掌 握 每 一 个 技术 人 员 的 技术 本 领 以 及 期 望 的 发 展 方向 。 
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另外 ， 谈 谈 大 公司 和 创业 公司 的 区 别 ， 他 们 最 大 的 区 别 就 在 于 沟通 的 成 本 ， 以 及 由 此 决定 
的 员工 工作 时 的 心态 和 状态 。 

对 于 BAT 之 类 的 大 公司 ， 犯 错误 的 成 本 是 很 高 的 。 因 此 ， 在 开发 过 程 中 , 沟通 的 成 本 非常 
高 。 大 公司 的 流程 管理 相对 比较 规范 和 严格 ， 有 些 是 以 KPI 为 导向 的 ， 团 队 里 的 技术 、 产 品 、 
运营 都 有 专门 的 负责 人 ， 他 们 都 有 自己 独立 的 KPI， 即 使 这 些 不 同 角 色 的 人 都 是 负责 同一 个 项 
目 也 是 如 此 。 因 此 ， 在 做 项 目 时 ， 一 个 很 小 的 改动 ， 或 者 一 次 很 小 的 沟通 ， 甚 至 是 一 次 很 平常 
的 沟通 的 结论 ， 大 都 需要 发 出 邮件 让 双方 的 领导 知情 ， 很 多 效率 会 损失 在 这 里 。 因 此 ， 这 种 管 
理 风格 多 是 “保守 ”的 。 
创业 公司 一 般 是 ， 想 到 一 个 好 点 子 就 立即 安排 去 实现 ， 或 者 遇 到 葛 品 上 线 了 一 个 新 功能 
实现 相应 的 功能 。 因 此 ， 开 发 周期 相对 都 很 快 ， 管 理 方式 也 略微 “激进 ” 些 。 

理 方式 的 不 同事 关公 司 ， 也 事 关 管理 者 ， 也 有 一 些 公司 在 这 个 层面 做 得 很 好 ， 他 们 的 管 
理 者 在 决策 上 比较 有 经 验 ， 既 不 盲目 追溯 ， 也 不 大 跨 步 冒进 ， 他 们 的 技术 管理 人 员 承 担 了 很 大 
的 决策 压力 ， 因 此 非常 有 胆识 。 
有 些 年 轻 人 以 在 大 公司 工作 为 骄 做 ， 也 有 些 职场 新 手 鲜 慕 和 敬仰 大 公司 。 这 里 ， 我 借用 乔 
布 斯 说 的 一 段 话 来 与 读者 共勉 :“ 公 司 规模 扩大 之 后 ， 就 会 变 得 因循守旧 ， 员 工 们 觉得 只 要 遵 
守 流 程 ， 就 能 奇迹 般 地 继续 成 功 ， 于 是 开始 推行 严格 的 流程 制度 ， 很 快 员工 就 把 遵守 流程 和 纪 
律 当 作 工 作 本 身 。” 因 此 ， 无 论 在 哪里 ， 我 们 都 应 该 实现 的 是 在 工作 目标 本 身上 的 突破 ， 而 不 
是 拘泥 于 流程 本 身 。 
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B.2 公司 效率 损失 及 规避 


多 情况 下 ， 公 司 效率 往往 损失 在 细微 末节 的 小 事 上 。 比 如 ， 某 个 技术 人 员 的 代码 没有 
就 提交 了 ， 不 慎 被 发 布 到 线 上 ， 然 后 为 这 件 事 需 要 耽误 好 几 天 的 时 间 来 修复 和 后 续 案 例 
再 如 ， 同 事 之 间 对 同一 个 文件 的 代码 进行 修改 后 ， 合 并 后 没有 正确 解决 冲突 。 这 种 错误 
然 很 小 ， 但 是 也 极 大 地 影响 了 团队 的 工作 效率 ， 往 往 要 牵扯 到 好 几 个 人 去 处 理 。 这 种 错误 往 
EF 发 生 在 比较 “激进 ”的 团队 中 ， 这 时 ， 一 些 开发 流程 对 出 现 这 些 错 误 就 有 了 规避 的 作用 。 

d) 代码 需要 经 过 代码 评审 (code review，CR)。 代 码 评审 的 重要 性 不 言 自明 ， 对 于 被 评 
审 者 ， 他 可 以 学 到 很 多 现成 的 编码 经 验 ， 而 对 于 评审 人 员 ， 他 可 以 看 看 新 手 有 哪些 新 的 设计 思 
路 ， 给 自己 以 启发 ， 并 且 能 知道 系统 中 常 犯 的 错误 和 问题 ， 对 高 屋 建 领地 理解 系统 非常 重要 。 
但 是 ， 现 在 代码 评审 往往 被 很 多 公司 忽视 。 它 还 是 一 道 心里 防线 ， 能 够 防止 未 运行 通过 的 代码 
被 提交 。 

(25 即使 是 简单 的 一 次 代码 上 线 ， 也 需要 测试 人 员 和 运 维 人 员 去 验证 。 很 多 情况 下 ， 开 发 
人 员 认 为 修改 量 很 小 ， 影 响 范 围 有 限 ， 因 此 直接 上 线 了 ， 这 往往 会 导致 问题 出 现 ， 在 我 周围 也 
听 说 过 很 多 例 。 因 此 ， 无 论 修改 范围 大 小 ， 都 需要 经 过 验证 的 流程 。 
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(3) 慎重 使 用 root 权限 。 运 维 人 员 往 往 有 很 多 机 器 的 最 高 权限 ， 但 人 毕竟 不 是 机 器 ， 有 时 、 
困 、 饿 、 烦 的 时 候 ， 有 很 多 误 操 作 就 来 源 于 这 种 情况 下 的 “rm -rf”。 因 此 ， 一 些 解 决 经 验 就 是 : 












































重新 编译 或 者 自己 实现 rm 命令 的 源 代码 ， 进 入 重要 目录 后 ， 执 行 这 个 操作 时 ， 需 要 输入 密码 ， 


这 个 密码 可 以 是 “当天 的 0 点 时 间 惟 加 上 当天 的 星期 序号 的 md5 值 ”等 。 严 格 执行 根据 运 维 级 




















别 给 予 操 作 权限 ， 对 应 重要 目录 的 权限 ， 即 使 很 高 级 别 的 人 ， 也 不 能 随意 切换 到 root 用 户 ， 执 


1T rm -zf 操作 。 

















本 章 主要 总 结 了 我 在 学 习 项 目 管理 及 项 目 开 发 中 的 一 些 经 验 ， 根 据 我 在 创业 公司 和 大 公司 




















的 一 些 观察 ， 对 公司 整体 效率 的 提升 和 快速 稳步 发 展 提出 了 一 些 建 议 ， 也 从 技术 
司 效率 损失 提供 了 一 些 建 议 ， 供 有 志 于 成 为 技术 管理 人 员 的 读者 参考 借鉴 。 
































度 对 减少 公 





深度 学 习 是 当前 人 工 智能 最 核心 的 技术 ，TensorFlow 是 深度 学 习 最 主 
要 的 实现 平台 。 李 嘉 璇 的 这 本 书 对 TensorFlow 的 基本 原理 、 主 要 特 
性 、 使 用 方法 以 及 在 TensorFlow 上 的 技术 开发 做 了 系统 全 面 的 介绍 ， 
内 容 充 实 ， 讲 解 详 尽 。 没 有 对 TensorFlow 的 深刻 理解 和 丰富 的 实战 经 
验 是 写 不 出 这 样 的 好 书 来 的 ， 全 书 字里行间 透 出 作者 对 技术 的 真诚 热爱 
及 细致 钻研 。 本 书 定位 1 洽 当 ， 出 版 及 时 ， 相 信 起 者 一 定 会 喜欢 ， 强 肥 推 
荐 给 大 家 ! 
李 航 ， 华 为 诺 亚 方舟 实验 室 主任 ， 北 京 大 学 、 南 京 大 学 客座 教授 ， 
IEEE 会 士 、ACM 杰 出 科学 家 





我 认为 这 本 书 非常 适合 希望 研究 深度 学 习 的 程序 员 。 他 们 可 以 将 本 书 
作为 一 本 基础 和 实践 的 书籍 阅读 。 对 于 初学 者 来 说 ， 从 TensorFlow 入 
手 是 很 好 的 起 点 。TensorFlow 有 谷歌 的 强大 支持 ， 并 且 有 广泛 的 社 
区 。 读 者 可 以 从 本 书 中 了 解 基本 的 深度 学 习 原 理 、 典 型 的 模型 、 大 量 
的 TensorFlow 源 代码 以 及 成 功 的 应 用 范例 。 从 本 书 出 发 ， 读 者 可 以 循 
序 斩 进 ， 逐 步 深 入 ， 在 工作 实践 中 加 以 运用 ， 领 略 深度 学 习 的 美妙 。 
余 凯 ， 地 平 线 机 器 人 创始 人 ， 前 百度 深度 学 习 实 验 室 主任 








本 书 从 应 用 的 基本 案例 出 发 ， 使 用 实际 的 代码 介绍 TensorFlow 的 基 

础 知识 和 各 种 使 用 方法 。 本 书 也 介绍 了 一 些 深度 学 习 的 基础 知识 ， 如 

CNN、RNN、LSTM， 并 列 出 了 一 些 深入 研究 深度 学 习 的 参考 文献 ， 

是 一 本 很 好 的 从 应 用 出 发 介绍 TensorFlow 的 读物 ， 非 常 适合 有 兴趣 学 
习 和 使 用 TensorFlow 的 广大 读者 阅读 。 

孙 亮 , 《实用 机 器 学 习 》 作 者 ， 

阿里 巴巴 数据 科学 与 技术 研究 院 高 级 专家 


不 “高 来 高 去 ”、 不 “急于 求 成 ”、 品 味 独特 的 TensorFlow 深 度 学 习 








Sedea $-B— 气 呵 成 ， 深 入 浅 出 ， 履 盖 全 面 ， 实 例 丰 富 ， 是 难得 的 

用 心 佳作 。“ 深 度 学 习 ” 浪 潮 当前 ， 从 “看 漠 间 ”到 “看 门道 ”路 在 何 
方 ?本 书 或 许 能 帮 你 找到 - 些 线索 。 

陈 光 ， 北 京 邮 电大 学 模式 识别 实验 室 副 教授 

( 微 博 @ 爱 可 可 - 爱 生活 ) 








封面 设计 : 董 志 桢 








分 类 建议 : 计算 机 /人 工 智能 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


从 纯 技 术 的 角度 来 看 ， 深 度 学 习 还 是 有 些 深奥 的 ， 幸 亏 Al 社 区 有 了 越 来 
越 多 的 开源 平台 ， 使 深度 学 习 的 应 用 变 得 越 来 越 简单 ，TensorFlow 即 
是 其 中 优秀 的 平台 之 一 。 如 何 尽快 熟悉 这 个 平台 ， 并 能 在 实战 中 发 挥 
其 作用 ， 是 众多 工程 技术 人 员 非 常 渴望 获得 的 技能 。 嘉 歼 的 这 本 书 应 
该 是 很 好 的 选择 ! 作者 基于 对 TensorFlow 的 深刻 理解 和 丰富 的 实战 经 
验 ， 对 TensorFlow 的 原理 、 特 性 、 使 用 方法 以 及 应 用 技巧 做 了 详尽 的 
介绍 。 特 则 结合 有 具体 实例 进行 讲解 的 方式 ， 有 利于 读者 直观 、 快 速 地 
掌握 有 关 的 技能 。 嘉 族 多 才 多 艺 ， 对 技术 和 生活 充满 梁 爱 和 激情 ， 相 信 
这 本 书 会 有 众多 读者 喜欢 ! 
山 世 光 ， 中 科 院 计算 所 研究 员 ， 中 科 院 智能 信息 处 理 重 点 实验 室 常务 
副 主任 ， 中 科 视 拓 创 始 人 、 董 事 长 兼 CTO 





























TensorFlow 是 目前 最 受 欢迎 的 深度 学 习 框架 。 本 书 作 者 在 文本 分 
析 和 数据 挖掘 方面 拥有 丰富 的 经 验 。 通 过 相关 算法 的 专业 知识 和 对 
TensorFlow 的 所 有 前 沿 功能 的 深入 解析 ， 作 者 提供 一 章 章 的 有 用 资料 
来 分 享 实用 和 有 见地 的 信息 。 细 分 为 直观 的 “基础 篇 ”“ 实 战 篇 ”“ 提 
高 篇 ”这 样 的 结构 ， 可 以 帮助 读者 有 效 地 学 习 。 

Matt Scott ( 码 特 ) ，Malong ( 码 隆 科 技 ) CTO 






































随 着 机 器 不 断 突破 智能 极限 ， 我 们 将 被 卷 入 超 乎 想象 的 Al 新 时 代 。 
TensorFlow 是 推动 人 工 智能 进步 最 大 的 引擎 ， 如 果 你 希望 站 在 机 器 学 
习 浪 潮 上 成 为 A 骸 客 ， 那 就 从 阅读 本 书 开始 努力 吧 ! 本 书 详尽 地 介绍 
算法 和 模型 的 细节 ， 同 时 穿插 大 量 的 工业 界 实 际 例子 ， 潭 栅 贞 井 解 了 如 
何 构建 深度 学 习 模 型 ， 对 建立 完整 的 深度 学 习 知 识 体系 大 有 神 益 。 

李 卓 桓 ，PreAngel 合 伙 人 ， 机 器 学 习 /ChatBot 爱 好 者 





深度 学 习 的 浪潮 池 涌 而 来 ，TensorFlow 则 为 广大 弄潮儿 提供 了 强大 的 
帆 板 。 对 于 更 多 虽 没 有 弄 潮 经 验 却 跃跃欲试 的 人 ， 这 本 书 正 可 以 成 为 他 
IARR. EE = Eb 
示 了 包括 CNN、RNN、GAN 在 内 的 多 种 算法 实现 ， 对 入 门 深度 学 习 和 
TensorFlow 是 难得 的 学 习 材料 。 





边 江 ， 微 软 亚洲 研究 院 主管 研究 员 
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